multi_news

  • คำอธิบาย :

ชุดข้อมูลหลายข่าว

Multi-News ประกอบด้วยบทความข่าวและบทสรุปที่เขียนโดยมนุษย์จากเว็บไซต์ข่าว newser.com บทสรุปแต่ละบทเขียนโดยบรรณาธิการอย่างมืออาชีพ และมีลิงก์ไปยังบทความต้นฉบับที่อ้างอิง

นี่เป็นชุดข้อมูลขนาดใหญ่ชุดแรกสำหรับการสรุปบทความข่าวจากเอกสารหลายฉบับ

แต่ละรายการมีคุณลักษณะสองประการ:

  • document : ข้อความบทความข่าว คั่นด้วยเครื่องหมายพิเศษ "||||||"
  • summary : สรุปข่าว.

  • เอกสารเพิ่มเติม : สำรวจเอกสารด้วยรหัส

  • หน้าแรก : https://github.com/Alex-Fabbri/Multi-News

  • โค้ดต้นฉบับ : tfds.datasets.multi_news.Builder

  • เวอร์ชัน :

    • 1.0.0 : เผยแพร่ครั้งแรก
    • 2.0.0 : [อย่าใช้] อัปเดตชุดข้อมูลด้วย URL ที่ถูกต้อง
    • 2.1.0 (ค่าเริ่มต้น) : อัปเดตชุดข้อมูลด้วย URL ที่ถูกต้อง URL ในเวอร์ชันนี้มาจากคลังข้อมูลของ HuggingFace ซึ่งดูแลโดยผู้เขียนคนเดียวกัน: https://huggingface.co/datasets/alexfabbri/multi_news
  • ขนาดดาวน์โหลด : 721.73 MiB

  • ขนาดชุดข้อมูล : 666.50 MiB

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • สปลิต :

แยก ตัวอย่าง
'test' 5,622
'train' 44,972
'validation' 5,622
  • โครงสร้างคุณสมบัติ :
FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • เอกสารประกอบคุณลักษณะ :
คุณสมบัติ ระดับ รูปร่าง ประเภท D คำอธิบาย
ฟีเจอร์ดิกต์
เอกสาร ข้อความ สตริง
สรุป ข้อความ สตริง
  • การอ้างอิง :
@misc{alex2019multinews,
    title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
    author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
    year={2019},
    eprint={1906.01749},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}