- Описание :
Набор данных Image Text (WIT) на основе Википедии представляет собой большой мультимодальный многоязычный набор данных. WIT состоит из тщательно подобранного набора из 37,6 миллионов примеров изображения и текста с богатым содержанием сущностей с 11,5 миллионами уникальных изображений на 108 языках Википедии. Его размер позволяет использовать WIT в качестве набора данных для предварительной подготовки мультимодальных моделей машинного обучения.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/google-research-datasets/wit/
Исходный код :
tfds.vision_language.wit.WitВерсии :
-
1.0.0: Первоначальный выпуск. Он загружает набор данных WIT из https://storage.googleapis.com/gresearch/wit/ . -
1.1.0(по умолчанию): добавлены разделителиvalиtest.
-
Размер загрузки :
25.20 GiBРазмер набора данных :
81.17 GiBАвтоматическое кэширование ( документация ): Нет
Сплиты :
| Расколоть | Примеры |
|---|---|
'test' | 210 166 |
'train' | 37 046 386 |
'val' | 261 024 |
- Структура функции :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| ОсобенностиDict | ||||
| attribution_passes_lang_id | Тензор | логический | ||
| caption_alt_text_description | Текст | нить | ||
| caption_attribution_description | Текст | нить | ||
| caption_reference_description | Текст | нить | ||
| context_page_description | Текст | нить | ||
| context_section_description | Текст | нить | ||
| иерархический_раздел_название | Текст | нить | ||
| URL изображения | Текст | нить | ||
| is_main_image | Тензор | логический | ||
| язык | Текст | нить | ||
| mime_type | Текст | нить | ||
| original_height | Тензор | int32 | ||
| исходная_ширина | Тензор | int32 | ||
| page_changed_recently | Тензор | логический | ||
| Заголовок страницы | Текст | нить | ||
| page_url | Текст | нить | ||
| section_title | Текст | нить |
Ключи под наблюдением (см. документ
as_supervised):NoneРисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}