- תיאור :
מערך נתונים רב-חדשות
Multi-News מורכב ממאמרי חדשות וסיכומים בכתב אנושי של מאמרים אלו מאתר החדשות newser.com
. כל תקציר נכתב בצורה מקצועית על ידי עורכים וכולל קישורים למאמרים המקוריים שצוטטו.
זהו מערך הנתונים הראשון בקנה מידה גדול לסיכום ריבוי מסמכים על מאמרי חדשות.
לכל רשומה שתי תכונות:
-
document
: טקסטים של כתבות חדשותיות, מופרדים באסימון מיוחד "|||||". summary
: סיכום החדשות.תיעוד נוסף : חקור על ניירות עם קוד
קוד מקור :
tfds.datasets.multi_news.Builder
גרסאות :
-
1.0.0
: שחרור ראשוני. -
2.0.0
: [אל תשתמש] עדכן את מערך הנתונים עם כתובות URL חוקיות. -
2.1.0
(ברירת מחדל) : עדכן את מערך הנתונים עם כתובות האתרים הנכונות. כתובות ה-URL בגרסה זו מגיעות ממאגר הנתונים של HuggingFace, אשר נאצר על ידי אותו מחבר: https://huggingface.co/datasets/alexfabbri/multi_news
-
גודל הורדה :
721.73 MiB
גודל ערכת נתונים :
666.50 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 5,622 |
'train' | 44,972 |
'validation' | 5,622 |
- מבנה תכונה :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מַחלָקָה | צוּרָה | Dtype | תֵאוּר |
---|---|---|---|---|
FeaturesDict | ||||
מִסְמָך | טֶקסט | חוּט | ||
תַקצִיר | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):('document', 'summary')
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@misc{alex2019multinews,
title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
year={2019},
eprint={1906.01749},
archivePrefix={arXiv},
primaryClass={cs.CL}
}