- Sự miêu tả :
Bộ dữ liệu đa tin tức
Multi-News bao gồm các bài viết tin tức và bản tóm tắt do con người biên soạn từ trang tin tức newser.com
. Mỗi bản tóm tắt đều được các biên tập viên chuyên nghiệp biên soạn và bao gồm liên kết đến các bài viết gốc được trích dẫn.
Đây là tập dữ liệu quy mô lớn đầu tiên dùng để tóm tắt nhiều tài liệu trên các bài báo.
Mỗi bản ghi có hai tính năng:
-
document
: Văn bản của các bài báo, được phân tách bằng ký tự đặc biệt "|||||". summary
: Tóm tắt tin tức.Tài liệu bổ sung : Khám phá trên Papers With Code
Trang chủ : https://github.com/Alex-Fabbri/Multi-News
Mã nguồn :
tfds.datasets.multi_news.Builder
Phiên bản :
-
1.0.0
: Bản phát hành đầu tiên. -
2.0.0
: [Không sử dụng] Cập nhật tập dữ liệu bằng các URL hợp lệ. -
2.1.0
(mặc định) : Cập nhật tập dữ liệu với các URL chính xác. Các URL trong phiên bản này được lấy từ kho dữ liệu của HuggingFace, do cùng tác giả quản lý: https://huggingface.co/datasets/alexfabbri/multi_news
-
Kích thước tải xuống :
721.73 MiB
Kích thước tập dữ liệu :
666.50 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Tách :
Tách ra | Ví dụ |
---|---|
'test' | 5.622 |
'train' | 44.972 |
'validation' | 5.622 |
- Cấu trúc tính năng :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Kiểu dữ liệu | Sự miêu tả |
---|---|---|---|---|
Tính năngTừ điển | ||||
tài liệu | Chữ | sợi dây | ||
bản tóm tắt | Chữ | sợi dây |
Khóa được giám sát (Xem
as_supervised
doc ):('document', 'summary')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@misc{alex2019multinews,
title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
year={2019},
eprint={1906.01749},
archivePrefix={arXiv},
primaryClass={cs.CL}
}