multi_news

  • وصف :

مجموعة بيانات الأخبار المتعددة

تتألف "أخبار متعددة" من مقالات إخبارية وملخصات مكتوبة بشريًا لهذه المقالات من موقع newser.com الإخباري. يُكتب كل ملخص باحترافية من قِبل محررين، ويتضمن روابط للمقالات الأصلية المذكورة.

هذه هي أول مجموعة بيانات واسعة النطاق لتلخيص المستندات المتعددة للمقالات الإخبارية.

يحتوي كل سجل على ميزتين:

  • document : نصوص المقالات الإخبارية، مفصولة برمز خاص "|||||".
  • summary : ملخص الأخبار.

  • وثائق إضافية : استكشف على Papers With Code

  • الصفحة الرئيسية : https://github.com/Alex-Fabbri/Multi-News

  • كود المصدر : tfds.datasets.multi_news.Builder

  • الإصدارات :

    • 1.0.0 : الإصدار الأولي.
    • 2.0.0 : [لا تستخدم] تحديث مجموعة البيانات بعناوين URL صالحة.
    • 2.1.0 (افتراضي) : تحديث مجموعة البيانات بعناوين URL الصحيحة. عناوين URL في هذا الإصدار مأخوذة من مستودع بيانات HuggingFace، الذي أشرف عليه المؤلف نفسه: https://huggingface.co/datasets/alexfabbri/multi_news
  • حجم التنزيل : 721.73 MiB

  • حجم مجموعة البيانات : 666.50 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • انقسامات :

ينقسم أمثلة
'test' 5,622
'train' 44,972
'validation' 5,622
  • هيكل الميزة :
FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • توثيق الميزة :
ميزة فصل شكل نوع البيانات وصف
قاموس الميزات
وثيقة نص خيط
ملخص نص خيط
  • الاستشهاد :
@misc{alex2019multinews,
    title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
    author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
    year={2019},
    eprint={1906.01749},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}