ingenio

Descripción :

El conjunto de datos de texto de imagen (WIT) basado en Wikipedia es un gran conjunto de datos multilingüe multimodal. WIT se compone de un conjunto seleccionado de 37,6 millones de ejemplos de texto de imágenes ricos en entidades con 11,5 millones de imágenes únicas en 108 idiomas de Wikipedia. Su tamaño permite que WIT se use como un conjunto de datos de preentrenamiento para modelos de aprendizaje automático multimodal.

Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/google-research-datasets/wit/
Código fuente : tfds.vision_language.wit.Wit
Versiones :
- 1.0.0 : Versión inicial. Carga el conjunto de datos WIT desde https://storage.googleapis.com/gresearch/wit/
- 1.1.0 (predeterminado): valor val y divisiones de test .
Tamaño de descarga : 25.20 GiB
Tamaño del conjunto de datos : 81.17 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :

Separar	Ejemplos
`'test'`	210,166
`'train'`	37,046,386
`'val'`	261,024

Estructura de características :

FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
attribution_passes_lang_id	Tensor	bool
caption_alt_text_descripción	Texto	cuerda
caption_attribution_description	Texto	cuerda
caption_reference_description	Texto	cuerda
descripción_página_contexto	Texto	cuerda
contexto_sección_descripción	Texto	cuerda
título_de_la_sección_jerárquica	Texto	cuerda
URL de la imagen	Texto	cuerda
es_imagen_principal	Tensor	bool
idioma	Texto	cuerda
tipo de Mimica	Texto	cuerda
altura_original	Tensor	int32
ancho_original	Tensor	int32
página_cambiada_recientemente	Tensor	bool
Título de la página	Texto	cuerda
URL de la página	Texto	cuerda
sección de título	Texto	cuerda

Claves supervisadas (Ver as_supervised doc ): None
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):

Cita :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

ingenio Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

ingenio