बुद्धि

विवरण :

विकिपीडिया-आधारित इमेज टेक्स्ट (WIT) डेटासेट एक बड़ा मल्टीमॉडल बहुभाषी डेटासेट है। WIT 108 विकिपीडिया भाषाओं में 11.5 मिलियन अद्वितीय छवियों के साथ 37.6 मिलियन इकाई समृद्ध छवि-पाठ उदाहरणों के क्यूरेटेड सेट से बना है। इसका आकार WIT को मल्टीमॉडल मशीन लर्निंग मॉडल के लिए पूर्व-प्रशिक्षण डेटासेट के रूप में उपयोग करने में सक्षम बनाता है।

अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
मुखपृष्ठ : https://github.com/google-research-datasets/wit/
स्रोत कोड : tfds.vision_language.wit.Wit
संस्करण :
- 1.0.0 : प्रारंभिक रिलीज। यह WIT डेटासेट को https://storage.googleapis.com/gresearch/wit/ से लोड करता है
- 1.1.0 (डिफ़ॉल्ट): val और test स्प्लिट जोड़े गए।
डाउनलोड आकार : 25.20 GiB
डेटासेट का आकार : 81.17 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :

विभाजित करना	उदाहरण
`'test'`	210,166
`'train'`	37,046,386
`'val'`	261,024

फ़ीचर संरचना :

FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	डीटाइप
	विशेषताएं डिक्ट
एट्रिब्यूशन_पास_लैंग_आईडी	टेन्सर	बूल
कैप्शन_alt_text_description	मूलपाठ	डोरी
कैप्शन_एट्रिब्यूशन_डिस्क्रिप्शन	मूलपाठ	डोरी
कैप्शन_संदर्भ_विवरण	मूलपाठ	डोरी
प्रसंग_पृष्ठ_विवरण	मूलपाठ	डोरी
संदर्भ_अनुभाग_विवरण	मूलपाठ	डोरी
श्रेणीबद्ध_अनुभाग_शीर्षक	मूलपाठ	डोरी
छवि यूआरएल	मूलपाठ	डोरी
is_main_image	टेन्सर	बूल
भाषा: हिन्दी	मूलपाठ	डोरी
माइम प्रकार	मूलपाठ	डोरी
मूल_ऊंचाई	टेन्सर	int32
मूल_चौड़ाई	टेन्सर	int32
page_changed_recently	टेन्सर	बूल
पृष्ठ का शीर्षक	मूलपाठ	डोरी
पेज का पता	मूलपाठ	डोरी
अनुभाग शीर्षक	मूलपाठ	डोरी

पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):

उद्धरण :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

बुद्धि संग्रह की मदद से व्यवस्थित रहें अपनी प्राथमिकताओं के आधार पर, कॉन्टेंट को सेव करें और कैटगरी में बांटें.

बुद्धि