- คำอธิบาย :
ASQA เป็นชุดข้อมูลตอบคำถามแบบยาวชุดแรกที่เน้นคำถามข้อเท็จจริงที่คลุมเครือ แตกต่างจากชุดข้อมูลคำตอบแบบยาวก่อนหน้านี้ แต่ละคำถามจะมีทั้งคำตอบแบบยาวและคู่คำถาม-คำตอบแบบแยกส่วน ซึ่งควรจะตอบได้ด้วยข้อความที่สร้างขึ้น คำตอบแบบยาวที่สร้างขึ้นจะได้รับการประเมินโดยใช้ทั้งความแม่นยำ ROUGE และ QA เราแสดงให้เห็นว่าตัวชี้วัดการประเมินเหล่านี้มีความสัมพันธ์กับวิจารณญาณของมนุษย์เป็นอย่างดี ในที่เก็บข้อมูลนี้ เราได้เผยแพร่ชุดข้อมูล ASQA พร้อมด้วยโค้ดการประเมิน: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>
หน้าแรก : https://github.com/google-research/ language/tree/master/ language/asqa
ซอร์สโค้ด :
tfds.datasets.asqa.Builder
รุ่น :
-
1.0.0
: การเปิดตัวครั้งแรก -
2.0.0
(ค่าเริ่มต้น) : รหัสตัวอย่างเปลี่ยนจาก int32 (ล้น) เป็น int64
-
ขนาดดาวน์โหลด :
17.86 MiB
ขนาดชุดข้อมูล :
14.51 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'dev' | 948 |
'train' | 4,353 |
- โครงสร้างคุณสมบัติ :
FeaturesDict({
'ambiguous_question': Text(shape=(), dtype=string),
'annotations': Sequence({
'knowledge': Sequence({
'content': Text(shape=(), dtype=string),
'wikipage': Text(shape=(), dtype=string),
}),
'long_answer': Text(shape=(), dtype=string),
}),
'qa_pairs': Sequence({
'context': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'short_answers': Sequence(Text(shape=(), dtype=string)),
'wikipage': Text(shape=(), dtype=string),
}),
'sample_id': int64,
'wikipages': Sequence({
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | ประเภทD | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ไม่ชัดเจน_คำถาม | ข้อความ | เชือก | คำถามที่ไม่คลุมเครือจาก AmbigQA | |
คำอธิบายประกอบ | ลำดับ | คำตอบแบบยาวสำหรับคำถามคลุมเครือที่สร้างโดยผู้อธิบายประกอบ ASQA | ||
คำอธิบายประกอบ/ความรู้ | ลำดับ | รายการองค์ความรู้เพิ่มเติม | ||
คำอธิบายประกอบ/ความรู้/เนื้อหา | ข้อความ | เชือก | ข้อความจากวิกิพีเดีย | |
คำอธิบายประกอบ/ความรู้/หน้าวิกิ | ข้อความ | เชือก | ชื่อของหน้า Wikipedia ที่เป็นข้อความดังกล่าว | |
คำอธิบายประกอบ/long_answer | ข้อความ | เชือก | คำอธิบายประกอบ | |
qa_pairs | ลำดับ | คู่คำถามและคำตอบจาก AmbigQA ซึ่งใช้เพื่อแก้ความกำกวม | ||
qa_pairs/บริบท | ข้อความ | เชือก | บริบทเพิ่มเติมที่ให้ไว้ | |
qa_pairs/คำถาม | ข้อความ | เชือก | ||
qa_pairs/short_answers | ลำดับ(ข้อความ) | (ไม่มี,) | เชือก | รายการคำตอบสั้น ๆ จาก AmbigQA |
qa_pairs/wikipage | ข้อความ | เชือก | ชื่อเรื่องของหน้า Wikipedia ที่ใช้บริบทเพิ่มเติม | |
ตัวอย่าง_id | เทนเซอร์ | int64 | ||
วิกิเพจ | ลำดับ | รายการหน้า Wikipedia ที่เข้าชมโดยผู้อธิบายประกอบ AmbigQA | ||
วิกิเพจ/หัวเรื่อง | ข้อความ | เชือก | ชื่อเรื่องของหน้าวิกิพีเดีย | |
วิกิเพจ/URL | ข้อความ | เชือก | เชื่อมโยงไปยังหน้าวิกิพีเดีย |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}