- وصف :
مجموعة بيانات الأخبار المتعددة
تتألف "أخبار متعددة" من مقالات إخبارية وملخصات مكتوبة بشريًا لهذه المقالات من موقع newser.com
الإخباري. يُكتب كل ملخص باحترافية من قِبل محررين، ويتضمن روابط للمقالات الأصلية المذكورة.
هذه هي أول مجموعة بيانات واسعة النطاق لتلخيص المستندات المتعددة للمقالات الإخبارية.
يحتوي كل سجل على ميزتين:
-
document
: نصوص المقالات الإخبارية، مفصولة برمز خاص "|||||". summary
: ملخص الأخبار.وثائق إضافية : استكشف على Papers With Code
الصفحة الرئيسية : https://github.com/Alex-Fabbri/Multi-News
كود المصدر :
tfds.datasets.multi_news.Builder
الإصدارات :
-
1.0.0
: الإصدار الأولي. -
2.0.0
: [لا تستخدم] تحديث مجموعة البيانات بعناوين URL صالحة. -
2.1.0
(افتراضي) : تحديث مجموعة البيانات بعناوين URL الصحيحة. عناوين URL في هذا الإصدار مأخوذة من مستودع بيانات HuggingFace، الذي أشرف عليه المؤلف نفسه: https://huggingface.co/datasets/alexfabbri/multi_news
-
حجم التنزيل :
721.73 MiB
حجم مجموعة البيانات :
666.50 MiB
التخزين المؤقت التلقائي ( التوثيق ): لا
انقسامات :
ينقسم | أمثلة |
---|---|
'test' | 5,622 |
'train' | 44,972 |
'validation' | 5,622 |
- هيكل الميزة :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- توثيق الميزة :
ميزة | فصل | شكل | نوع البيانات | وصف |
---|---|---|---|---|
قاموس الميزات | ||||
وثيقة | نص | خيط | ||
ملخص | نص | خيط |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('document', 'summary')
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاستشهاد :
@misc{alex2019multinews,
title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
year={2019},
eprint={1906.01749},
archivePrefix={arXiv},
primaryClass={cs.CL}
}