- Descripción :
El conjunto de datos de texto de imagen (WIT) basado en Wikipedia es un gran conjunto de datos multilingüe multimodal. WIT se compone de un conjunto seleccionado de 37,6 millones de ejemplos de texto de imágenes ricos en entidades con 11,5 millones de imágenes únicas en 108 idiomas de Wikipedia. Su tamaño permite que WIT se use como un conjunto de datos de preentrenamiento para modelos de aprendizaje automático multimodal.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/google-research-datasets/wit/
Código fuente :
tfds.vision_language.wit.WitVersiones :
-
1.0.0: Versión inicial. Carga el conjunto de datos WIT desde https://storage.googleapis.com/gresearch/wit/ -
1.1.0(predeterminado): valorvaly divisiones detest.
-
Tamaño de descarga :
25.20 GiBTamaño del conjunto de datos :
81.17 GiBAlmacenamiento automático en caché ( documentación ): No
Divisiones :
| Separar | Ejemplos |
|---|---|
'test' | 210,166 |
'train' | 37,046,386 |
'val' | 261,024 |
- Estructura de características :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- Documentación de características :
| Rasgo | Clase | Forma | Tipo D | Descripción |
|---|---|---|---|---|
| CaracterísticasDict | ||||
| attribution_passes_lang_id | Tensor | bool | ||
| caption_alt_text_descripción | Texto | cuerda | ||
| caption_attribution_description | Texto | cuerda | ||
| caption_reference_description | Texto | cuerda | ||
| descripción_página_contexto | Texto | cuerda | ||
| contexto_sección_descripción | Texto | cuerda | ||
| título_de_la_sección_jerárquica | Texto | cuerda | ||
| URL de la imagen | Texto | cuerda | ||
| es_imagen_principal | Tensor | bool | ||
| idioma | Texto | cuerda | ||
| tipo de Mimica | Texto | cuerda | ||
| altura_original | Tensor | int32 | ||
| ancho_original | Tensor | int32 | ||
| página_cambiada_recientemente | Tensor | bool | ||
| Título de la página | Texto | cuerda | ||
| URL de la página | Texto | cuerda | ||
| sección de título | Texto | cuerda |
Claves supervisadas (Ver
as_superviseddoc ):NoneFigura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}