- คำอธิบาย :
ชุดข้อมูลหลายข่าว
Multi-News ประกอบด้วยบทความข่าวและบทสรุปที่เขียนโดยมนุษย์จากเว็บไซต์ข่าว newser.com
บทสรุปแต่ละบทเขียนโดยบรรณาธิการอย่างมืออาชีพ และมีลิงก์ไปยังบทความต้นฉบับที่อ้างอิง
นี่เป็นชุดข้อมูลขนาดใหญ่ชุดแรกสำหรับการสรุปบทความข่าวจากเอกสารหลายฉบับ
แต่ละรายการมีคุณลักษณะสองประการ:
-
document
: ข้อความบทความข่าว คั่นด้วยเครื่องหมายพิเศษ "||||||" summary
: สรุปข่าว.เอกสารเพิ่มเติม : สำรวจเอกสารด้วยรหัส
โค้ดต้นฉบับ :
tfds.datasets.multi_news.Builder
เวอร์ชัน :
-
1.0.0
: เผยแพร่ครั้งแรก -
2.0.0
: [อย่าใช้] อัปเดตชุดข้อมูลด้วย URL ที่ถูกต้อง -
2.1.0
(ค่าเริ่มต้น) : อัปเดตชุดข้อมูลด้วย URL ที่ถูกต้อง URL ในเวอร์ชันนี้มาจากคลังข้อมูลของ HuggingFace ซึ่งดูแลโดยผู้เขียนคนเดียวกัน: https://huggingface.co/datasets/alexfabbri/multi_news
-
ขนาดดาวน์โหลด :
721.73 MiB
ขนาดชุดข้อมูล :
666.50 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
สปลิต :
แยก | ตัวอย่าง |
---|---|
'test' | 5,622 |
'train' | 44,972 |
'validation' | 5,622 |
- โครงสร้างคุณสมบัติ :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- เอกสารประกอบคุณลักษณะ :
คุณสมบัติ | ระดับ | รูปร่าง | ประเภท D | คำอธิบาย |
---|---|---|---|---|
ฟีเจอร์ดิกต์ | ||||
เอกสาร | ข้อความ | สตริง | ||
สรุป | ข้อความ | สตริง |
คีย์ที่ได้รับการดูแล (ดู เอกสาร
as_supervised
):('document', 'summary')
รูปภาพ ( tfds.show_examples ): ไม่ได้รับการรองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@misc{alex2019multinews,
title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
year={2019},
eprint={1906.01749},
archivePrefix={arXiv},
primaryClass={cs.CL}
}