multi_news

  • Sự miêu tả :

Bộ dữ liệu đa tin tức

Multi-News bao gồm các bài viết tin tức và bản tóm tắt do con người biên soạn từ trang tin tức newser.com . Mỗi bản tóm tắt đều được các biên tập viên chuyên nghiệp biên soạn và bao gồm liên kết đến các bài viết gốc được trích dẫn.

Đây là tập dữ liệu quy mô lớn đầu tiên dùng để tóm tắt nhiều tài liệu trên các bài báo.

Mỗi bản ghi có hai tính năng:

Tách ra Ví dụ
'test' 5.622
'train' 44.972
'validation' 5.622
  • Cấu trúc tính năng :
FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Kiểu dữ liệu Sự miêu tả
Tính năngTừ điển
tài liệu Chữ sợi dây
bản tóm tắt Chữ sợi dây
  • Trích dẫn :
@misc{alex2019multinews,
    title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
    author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
    year={2019},
    eprint={1906.01749},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}