- 설명 :
CLEVR은 다양한 시각적 추론 능력을 테스트하는 진단 데이터세트입니다. 여기에는 최소한의 편견이 포함되어 있으며 각 질문에 필요한 추론의 종류를 설명하는 자세한 주석이 있습니다.
추가 문서 : 코드 가 포함된 논문 탐색
소스 코드 :
tfds.datasets.clevr.Builder버전 :
-
3.0.0: 릴리스 노트가 없습니다. -
3.1.0(기본값): 질문/답변 텍스트를 추가합니다.
-
다운로드 크기 :
17.72 GiB데이터세트 크기 :
17.75 GiB자동 캐시 ( 문서 ): 아니요
분할 :
| 나뉘다 | 예 |
|---|---|
'test' | 15,000 |
'train' | 70,000 |
'validation' | 15,000 |
- 기능 구조 :
FeaturesDict({
'file_name': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'objects': Sequence({
'3d_coords': Tensor(shape=(3,), dtype=float32),
'color': ClassLabel(shape=(), dtype=int64, num_classes=8),
'material': ClassLabel(shape=(), dtype=int64, num_classes=2),
'pixel_coords': Tensor(shape=(3,), dtype=float32),
'rotation': float32,
'shape': ClassLabel(shape=(), dtype=int64, num_classes=3),
'size': ClassLabel(shape=(), dtype=int64, num_classes=2),
}),
'question_answer': Sequence({
'answer': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
}),
})
- 기능 문서 :
| 특징 | 수업 | 모양 | Dtype | 설명 |
|---|---|---|---|---|
| 특징Dict | ||||
| 파일 이름 | 텍스트 | 끈 | ||
| 영상 | 영상 | (없음, 없음, 3) | uint8 | |
| 사물 | 순서 | |||
| 객체/3d_coords | 텐서 | (삼,) | float32 | |
| 물체/색상 | 클래스 라벨 | 정수64 | ||
| 물체/재료 | 클래스 라벨 | 정수64 | ||
| 객체/pixel_coords | 텐서 | (삼,) | float32 | |
| 객체/회전 | 텐서 | float32 | ||
| 사물/모양 | 클래스 라벨 | 정수64 | ||
| 물체/크기 | 클래스 라벨 | 정수64 | ||
| 질문 답변 | 순서 | |||
| 질문_답변/답변 | 텍스트 | 끈 | ||
| 질문_답변/질문 | 텍스트 | 끈 |
감독되는 키 (
as_superviseddoc 참조):None그림 ( tfds.show_examples ):

- 예 ( tfds.as_dataframe ):
- 인용 :
@inproceedings{johnson2017clevr,
title={ {CLEVR}: A diagnostic dataset for compositional language and elementary visual reasoning},
author={Johnson, Justin and Hariharan, Bharath and van der Maaten, Laurens and Fei-Fei, Li and Lawrence Zitnick, C and Girshick, Ross},
booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
year={2017}
}