อัสกา

  • คำอธิบาย :

ASQA เป็นชุดข้อมูลตอบคำถามแบบยาวชุดแรกที่เน้นคำถามข้อเท็จจริงที่คลุมเครือ แตกต่างจากชุดข้อมูลคำตอบแบบยาวก่อนหน้านี้ แต่ละคำถามจะมีทั้งคำตอบแบบยาวและคู่คำถาม-คำตอบแบบแยกส่วน ซึ่งควรจะตอบได้ด้วยข้อความที่สร้างขึ้น คำตอบแบบยาวที่สร้างขึ้นจะได้รับการประเมินโดยใช้ทั้งความแม่นยำ ROUGE และ QA เราแสดงให้เห็นว่าตัวชี้วัดการประเมินเหล่านี้มีความสัมพันธ์กับวิจารณญาณของมนุษย์เป็นอย่างดี ในที่เก็บข้อมูลนี้ เราได้เผยแพร่ชุดข้อมูล ASQA พร้อมด้วยโค้ดการประเมิน: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>

  • หน้าแรก : https://github.com/google-research/ language/tree/master/ language/asqa

  • ซอร์สโค้ด : tfds.datasets.asqa.Builder

  • รุ่น :

    • 1.0.0 : การเปิดตัวครั้งแรก
    • 2.0.0 (ค่าเริ่มต้น) : รหัสตัวอย่างเปลี่ยนจาก int32 (ล้น) เป็น int64
  • ขนาดดาวน์โหลด : 17.86 MiB

  • ขนาดชุดข้อมูล : 14.51 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'dev' 948
'train' 4,353
  • โครงสร้างคุณสมบัติ :
FeaturesDict({
    'ambiguous_question': Text(shape=(), dtype=string),
    'annotations': Sequence({
        'knowledge': Sequence({
            'content': Text(shape=(), dtype=string),
            'wikipage': Text(shape=(), dtype=string),
        }),
        'long_answer': Text(shape=(), dtype=string),
    }),
    'qa_pairs': Sequence({
        'context': Text(shape=(), dtype=string),
        'question': Text(shape=(), dtype=string),
        'short_answers': Sequence(Text(shape=(), dtype=string)),
        'wikipage': Text(shape=(), dtype=string),
    }),
    'sample_id': int64,
    'wikipages': Sequence({
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง ประเภทD คำอธิบาย
คุณสมบัติDict
ไม่ชัดเจน_คำถาม ข้อความ เชือก คำถามที่ไม่คลุมเครือจาก AmbigQA
คำอธิบายประกอบ ลำดับ คำตอบแบบยาวสำหรับคำถามคลุมเครือที่สร้างโดยผู้อธิบายประกอบ ASQA
คำอธิบายประกอบ/ความรู้ ลำดับ รายการองค์ความรู้เพิ่มเติม
คำอธิบายประกอบ/ความรู้/เนื้อหา ข้อความ เชือก ข้อความจากวิกิพีเดีย
คำอธิบายประกอบ/ความรู้/หน้าวิกิ ข้อความ เชือก ชื่อของหน้า Wikipedia ที่เป็นข้อความดังกล่าว
คำอธิบายประกอบ/long_answer ข้อความ เชือก คำอธิบายประกอบ
qa_pairs ลำดับ คู่คำถามและคำตอบจาก AmbigQA ซึ่งใช้เพื่อแก้ความกำกวม
qa_pairs/บริบท ข้อความ เชือก บริบทเพิ่มเติมที่ให้ไว้
qa_pairs/คำถาม ข้อความ เชือก
qa_pairs/short_answers ลำดับ(ข้อความ) (ไม่มี,) เชือก รายการคำตอบสั้น ๆ จาก AmbigQA
qa_pairs/wikipage ข้อความ เชือก ชื่อเรื่องของหน้า Wikipedia ที่ใช้บริบทเพิ่มเติม
ตัวอย่าง_id เทนเซอร์ int64
วิกิเพจ ลำดับ รายการหน้า Wikipedia ที่เข้าชมโดยผู้อธิบายประกอบ AmbigQA
วิกิเพจ/หัวเรื่อง ข้อความ เชือก ชื่อเรื่องของหน้าวิกิพีเดีย
วิกิเพจ/URL ข้อความ เชือก เชื่อมโยงไปยังหน้าวิกิพีเดีย
  • การอ้างอิง :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}