multi_news

  • תיאור :

מערך נתונים רב-חדשות

Multi-News מורכב ממאמרי חדשות וסיכומים בכתב אנושי של מאמרים אלו מאתר החדשות newser.com . כל תקציר נכתב בצורה מקצועית על ידי עורכים וכולל קישורים למאמרים המקוריים שצוטטו.

זהו מערך הנתונים הראשון בקנה מידה גדול לסיכום ריבוי מסמכים על מאמרי חדשות.

לכל רשומה שתי תכונות:

  • document : טקסטים של כתבות חדשותיות, מופרדים באסימון מיוחד "|||||".
  • summary : סיכום החדשות.

  • תיעוד נוסף : חקור על ניירות עם קוד

  • דף הבית : https://github.com/Alex-Fabbri/Multi-News

  • קוד מקור : tfds.datasets.multi_news.Builder

  • גרסאות :

    • 1.0.0 : שחרור ראשוני.
    • 2.0.0 : [אל תשתמש] עדכן את מערך הנתונים עם כתובות URL חוקיות.
    • 2.1.0 (ברירת מחדל) : עדכן את מערך הנתונים עם כתובות האתרים הנכונות. כתובות ה-URL בגרסה זו מגיעות ממאגר הנתונים של HuggingFace, אשר נאצר על ידי אותו מחבר: https://huggingface.co/datasets/alexfabbri/multi_news
  • גודל הורדה : 721.73 MiB

  • גודל ערכת נתונים : 666.50 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 5,622
'train' 44,972
'validation' 5,622
  • מבנה תכונה :
FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מַחלָקָה צוּרָה Dtype תֵאוּר
FeaturesDict
מִסְמָך טֶקסט חוּט
תַקצִיר טֶקסט חוּט
  • ציטוט :
@misc{alex2019multinews,
    title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
    author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
    year={2019},
    eprint={1906.01749},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}