- คำอธิบาย :
ชุดข้อมูล Image Text (WIT) ที่ใช้วิกิพีเดียเป็นชุดข้อมูลหลายภาษาหลายรูปแบบขนาดใหญ่ WIT ประกอบด้วยชุดตัวอย่างข้อความรูปภาพแบบเอนทิตี 37.6 ล้านรายการที่มีรูปภาพที่ไม่ซ้ำกัน 11.5 ล้านภาพใน 108 ภาษาของวิกิพีเดีย ขนาดของมันช่วยให้ WIT สามารถใช้เป็นชุดข้อมูลก่อนการฝึกอบรมสำหรับโมเดลแมชชีนเลิร์นนิงหลายรูปแบบ
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
รหัสที่มา :
tfds.vision_language.wit.Witรุ่น :
-
1.0.0: การเปิดตัวครั้งแรก มันโหลดชุดข้อมูล WIT จาก https://storage.googleapis.com/gresearch/wit/ -
1.1.0(ค่าเริ่มต้น): เพิ่มvalและตัวแบ่งtest
-
ขนาดการดาวน์โหลด :
25.20 GiBขนาดชุดข้อมูล :
81.17 GiBแคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
| แยก | ตัวอย่าง |
|---|---|
'test' | 210,166 |
'train' | 37,046,386 |
'val' | 261,024 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
| ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
|---|---|---|---|---|
| คุณสมบัติDict | ||||
| attribution_passes_lang_id | เทนเซอร์ | บูล | ||
| caption_alt_text_description | ข้อความ | สตริง | ||
| caption_attribution_description | ข้อความ | สตริง | ||
| caption_reference_description | ข้อความ | สตริง | ||
| Context_page_description | ข้อความ | สตริง | ||
| Context_section_description | ข้อความ | สตริง | ||
| hierarchical_section_title | ข้อความ | สตริง | ||
| image_url | ข้อความ | สตริง | ||
| is_main_image | เทนเซอร์ | บูล | ||
| ภาษา | ข้อความ | สตริง | ||
| mime_type | ข้อความ | สตริง | ||
| original_height | เทนเซอร์ | int32 | ||
| ต้นฉบับ_ความกว้าง | เทนเซอร์ | int32 | ||
| page_change_recently | เทนเซอร์ | บูล | ||
| page_title | ข้อความ | สตริง | ||
| page_url | ข้อความ | สตริง | ||
| section_title | ข้อความ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_superviseddoc ):Noneรูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}