چند_اخبار

  • توضیحات :

مجموعه داده چند خبر

چند خبر متشکل از مقالات خبری و خلاصه های انسانی این مقالات از سایت خبری newser.com است. هر خلاصه به صورت حرفه ای توسط ویراستاران نوشته شده است و شامل پیوندهایی به مقالات اصلی ذکر شده است.

این اولین مجموعه داده در مقیاس بزرگ برای خلاصه سازی چند سندی در مقالات خبری است.

هر رکورد دارای دو ویژگی است:

  • document : متون مقالات خبری با علامت ویژه «|||||» جدا شده اند.
  • summary : خلاصه خبر.

  • اسناد اضافی : کاوش در کاغذها با کد

  • صفحه اصلی : https://github.com/Alex-Fabbri/Multi-News

  • کد منبع : tfds.datasets.multi_news.Builder

  • نسخه ها :

    • 1.0.0 : انتشار اولیه.
    • 2.0.0 : [از استفاده نکنید] مجموعه داده را با URL های معتبر به روز کنید.
    • 2.1.0 (پیش فرض) : مجموعه داده را با URL های صحیح به روز کنید. آدرس‌های اینترنتی در این نسخه از مخزن داده HuggingFace می‌آیند که توسط همان نویسنده مدیریت می‌شود: https://huggingface.co/datasets/alexfabbri/multi_news
  • حجم دانلود : 721.73 MiB

  • حجم مجموعه داده : 666.50 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

تقسیم کنید نمونه ها
'test' 5,622
'train' 44972
'validation' 5,622
  • ساختار ویژگی :
FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D توضیحات
FeaturesDict
سند متن رشته
خلاصه متن رشته
  • نقل قول :
@misc{alex2019multinews,
    title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
    author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
    year={2019},
    eprint={1906.01749},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}