- Descripción :
dSprites es un conjunto de datos de formas 2D generadas procedimentalmente a partir de 6 factores latentes independientes de la verdad fundamental. Estos factores son el color , la forma , la escala , la rotación y las posiciones xey de un sprite.
Todas las combinaciones posibles de estos latentes están presentes exactamente una vez, generando N = 737280 imágenes en total.
Valores de factores latentes
- Color blanco
- Forma: cuadrado, elipse, corazón
- Escala: 6 valores espaciados linealmente en [0,5, 1]
- Orientación: 40 valores en [0, 2 pi]
- Posición X: 32 valores en [0, 1]
- Posición Y: 32 valores en [0, 1]
Variamos una latente a la vez (comenzando desde la Posición Y, luego la Posición X, etc.) y almacenamos secuencialmente las imágenes en un orden fijo. Por lo tanto, el orden a lo largo de la primera dimensión es fijo y le permite mapear el valor de las latentes correspondientes a esa imagen.
Elegimos los valores latentes deliberadamente para tener los cambios de paso más pequeños y al mismo tiempo asegurarnos de que todas las salidas de píxeles fueran diferentes. No se agregó ningún ruido.
Documentación adicional : Explorar en artículos con código
Página de inicio : https://github.com/deepmind/dsprites-dataset
Código fuente :
tfds.datasets.dsprites.BuilderVersiones :
-
2.0.0(predeterminado): Nueva API dividida ( https://tensorflow.org/datasets/splits ) -
2.1.0: Sin notas de versión.
-
Tamaño de descarga :
26.73 MiBTamaño del conjunto de datos :
Unknown sizeAlmacenamiento en caché automático ( documentación ): Desconocido
Divisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 737.280 |
- Estructura de características :
FeaturesDict({
'image': Image(shape=(64, 64, 1), dtype=uint8),
'label_orientation': ClassLabel(shape=(), dtype=int64, num_classes=40),
'label_scale': ClassLabel(shape=(), dtype=int64, num_classes=6),
'label_shape': ClassLabel(shape=(), dtype=int64, num_classes=3),
'label_x_position': ClassLabel(shape=(), dtype=int64, num_classes=32),
'label_y_position': ClassLabel(shape=(), dtype=int64, num_classes=32),
'value_orientation': float32,
'value_scale': float32,
'value_shape': float32,
'value_x_position': float32,
'value_y_position': float32,
})
- Documentación de funciones :
| Característica | Clase | Forma | tipo D | Descripción |
|---|---|---|---|---|
| FuncionesDict | ||||
| imagen | Imagen | (64, 64, 1) | uint8 | |
| orientación_etiqueta | Etiqueta de clase | int64 | ||
| escala_etiqueta | Etiqueta de clase | int64 | ||
| forma_etiqueta | Etiqueta de clase | int64 | ||
| etiqueta_x_posicion | Etiqueta de clase | int64 | ||
| etiqueta_y_posicion | Etiqueta de clase | int64 | ||
| orientación de valores | Tensor | flotador32 | ||
| escala_valor | Tensor | flotador32 | ||
| valor_forma | Tensor | flotador32 | ||
| valor_x_posicion | Tensor | flotador32 | ||
| valor_y_posicion | Tensor | flotador32 |
Claves supervisadas (ver documento
as_supervised):NoneFigura ( tfds.show_examples ):
![]()
- Ejemplos ( tfds.as_dataframe ):
- Citación :
@misc{dsprites17,
author = {Loic Matthey and Irina Higgins and Demis Hassabis and Alexander Lerchner},
title = {dSprites: Disentanglement testing Sprites dataset},
howpublished= {https://github.com/deepmind/dsprites-dataset/},
year = "2017",
}