বহু_সংবাদ

  • বর্ণনা :

মাল্টি-নিউজ ডেটাসেট

মাল্টি-নিউজ নিউজ সাইট newser.com থেকে সংবাদ নিবন্ধ এবং এই নিবন্ধগুলির মানব-লিখিত সারাংশ নিয়ে গঠিত। প্রতিটি সারাংশ পেশাদারভাবে সম্পাদকদের দ্বারা লেখা হয় এবং উদ্ধৃত মূল নিবন্ধগুলির লিঙ্কগুলি অন্তর্ভুক্ত করে।

সংবাদ নিবন্ধগুলিতে বহু-নথিপত্রের সংক্ষিপ্তসারের জন্য এটি প্রথম বড় আকারের ডেটাসেট।

প্রতিটি রেকর্ড দুটি বৈশিষ্ট্য আছে:

  • document : সংবাদ নিবন্ধের পাঠ্য, বিশেষ টোকেন দ্বারা পৃথক করা হয়েছে "|||||"।
  • summary : সংবাদের সারাংশ।

  • অতিরিক্ত ডকুমেন্টেশন : কোড সহ কাগজপত্রে অন্বেষণ করুন

  • হোমপেজ : https://github.com/Alex-Fabbri/Multi-News

  • সোর্স কোড : tfds.datasets.multi_news.Builder

  • সংস্করণ :

    • 1.0.0 : প্রাথমিক প্রকাশ।
    • 2.0.0 : [ব্যবহার করবেন না] বৈধ URL সহ ডেটাসেট আপডেট করুন।
    • 2.1.0 (ডিফল্ট) : সঠিক URL গুলি সহ ডেটাসেট আপডেট করুন৷ এই সংস্করণের URLগুলি HuggingFace-এর ডেটাসেট রেপো থেকে এসেছে, যা একই লেখক দ্বারা তৈরি করা হয়েছে: https://huggingface.co/datasets/alexfabbri/multi_news
  • ডাউনলোড সাইজঃ 721.73 MiB

  • ডেটাসেটের আকার : 666.50 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 5,622
'train' 44,972
'validation' 5,622
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
নথি পাঠ্য স্ট্রিং
সারাংশ পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@misc{alex2019multinews,
    title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
    author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
    year={2019},
    eprint={1906.01749},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}