बहु_समाचार

  • विवरण :

मल्टी-न्यूज़ डेटासेट

मल्टी-न्यूज़ में समाचार लेख और समाचार साइट newser.com से लिए गए इन लेखों के मानव-लिखित सारांश शामिल होते हैं। प्रत्येक सारांश पेशेवर रूप से संपादकों द्वारा लिखा जाता है और इसमें उद्धृत मूल लेखों के लिंक शामिल होते हैं।

यह समाचार लेखों पर बहु-दस्तावेज़ सारांशीकरण के लिए पहला बड़े पैमाने का डेटासेट है।

प्रत्येक रिकॉर्ड की दो विशेषताएं हैं:

  • document : समाचार लेखों के पाठ, विशेष टोकन "|||||" द्वारा अलग किए गए।
  • summary : समाचार का सारांश।

  • अतिरिक्त दस्तावेज़ीकरण : कोड के साथ पेपर्स पर देखें

  • होमपेज : https://github.com/Alex-Fabbri/Multi-News

  • स्रोत कोड : tfds.datasets.multi_news.Builder

  • संस्करण :

    • 1.0.0 : प्रारंभिक रिलीज़.
    • 2.0.0 : [उपयोग न करें] डेटासेट को मान्य URL के साथ अपडेट करें।
    • 2.1.0 (डिफ़ॉल्ट) : डेटासेट को सही URL से अपडेट करें। इस संस्करण में URL HuggingFace के डेटासेट रेपो से लिए गए हैं, जिसे उसी लेखक ने क्यूरेट किया है: https://huggingface.co/datasets/alexfabbri/multi_news
  • डाउनलोड आकार : 721.73 MiB

  • डेटासेट आकार : 666.50 MiB

  • स्वचालित कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 5,622
'train' 44,972
'validation' 5,622
  • विशेषता संरचना :
FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं
दस्तावेज़ मूलपाठ डोरी
सारांश मूलपाठ डोरी
  • उद्धरण :
@misc{alex2019multinews,
    title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
    author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
    year={2019},
    eprint={1906.01749},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}