- توضیحات :
مجموعه داده چند خبر
چند خبر متشکل از مقالات خبری و خلاصه های انسانی این مقالات از سایت خبری newser.com
است. هر خلاصه به صورت حرفه ای توسط ویراستاران نوشته شده است و شامل پیوندهایی به مقالات اصلی ذکر شده است.
این اولین مجموعه داده در مقیاس بزرگ برای خلاصه سازی چند سندی در مقالات خبری است.
هر رکورد دارای دو ویژگی است:
-
document
: متون مقالات خبری با علامت ویژه «|||||» جدا شده اند. summary
: خلاصه خبر.اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/Alex-Fabbri/Multi-News
کد منبع :
tfds.datasets.multi_news.Builder
نسخه ها :
-
1.0.0
: انتشار اولیه. -
2.0.0
: [از استفاده نکنید] مجموعه داده را با URL های معتبر به روز کنید. -
2.1.0
(پیش فرض) : مجموعه داده را با URL های صحیح به روز کنید. آدرسهای اینترنتی در این نسخه از مخزن داده HuggingFace میآیند که توسط همان نویسنده مدیریت میشود: https://huggingface.co/datasets/alexfabbri/multi_news
-
حجم دانلود :
721.73 MiB
حجم مجموعه داده :
666.50 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'test' | 5,622 |
'train' | 44972 |
'validation' | 5,622 |
- ساختار ویژگی :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | توضیحات |
---|---|---|---|---|
FeaturesDict | ||||
سند | متن | رشته | ||
خلاصه | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('document', 'summary')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@misc{alex2019multinews,
title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
year={2019},
eprint={1906.01749},
archivePrefix={arXiv},
primaryClass={cs.CL}
}