- विवरण :
विकिपीडिया-आधारित इमेज टेक्स्ट (WIT) डेटासेट एक बड़ा मल्टीमॉडल बहुभाषी डेटासेट है। WIT 108 विकिपीडिया भाषाओं में 11.5 मिलियन अद्वितीय छवियों के साथ 37.6 मिलियन इकाई समृद्ध छवि-पाठ उदाहरणों के क्यूरेटेड सेट से बना है। इसका आकार WIT को मल्टीमॉडल मशीन लर्निंग मॉडल के लिए पूर्व-प्रशिक्षण डेटासेट के रूप में उपयोग करने में सक्षम बनाता है।
अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
स्रोत कोड :
tfds.vision_language.wit.Witसंस्करण :
-
1.0.0: प्रारंभिक रिलीज। यह WIT डेटासेट को https://storage.googleapis.com/gresearch/wit/ से लोड करता है -
1.1.0(डिफ़ॉल्ट):valऔरtestस्प्लिट जोड़े गए।
-
डाउनलोड आकार :
25.20 GiBडेटासेट का आकार :
81.17 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 210,166 |
'train' | 37,046,386 |
'val' | 261,024 |
- फ़ीचर संरचना :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| विशेषताएं डिक्ट | ||||
| एट्रिब्यूशन_पास_लैंग_आईडी | टेन्सर | बूल | ||
| कैप्शन_alt_text_description | मूलपाठ | डोरी | ||
| कैप्शन_एट्रिब्यूशन_डिस्क्रिप्शन | मूलपाठ | डोरी | ||
| कैप्शन_संदर्भ_विवरण | मूलपाठ | डोरी | ||
| प्रसंग_पृष्ठ_विवरण | मूलपाठ | डोरी | ||
| संदर्भ_अनुभाग_विवरण | मूलपाठ | डोरी | ||
| श्रेणीबद्ध_अनुभाग_शीर्षक | मूलपाठ | डोरी | ||
| छवि यूआरएल | मूलपाठ | डोरी | ||
| is_main_image | टेन्सर | बूल | ||
| भाषा: हिन्दी | मूलपाठ | डोरी | ||
| माइम प्रकार | मूलपाठ | डोरी | ||
| मूल_ऊंचाई | टेन्सर | int32 | ||
| मूल_चौड़ाई | टेन्सर | int32 | ||
| page_changed_recently | टेन्सर | बूल | ||
| पृष्ठ का शीर्षक | मूलपाठ | डोरी | ||
| पेज का पता | मूलपाठ | डोरी | ||
| अनुभाग शीर्षक | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_superviseddoc देखें):Noneचित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}