- বর্ণনা :
মাল্টি-নিউজ ডেটাসেট
মাল্টি-নিউজ নিউজ সাইট newser.com
থেকে সংবাদ নিবন্ধ এবং এই নিবন্ধগুলির মানব-লিখিত সারাংশ নিয়ে গঠিত। প্রতিটি সারাংশ পেশাদারভাবে সম্পাদকদের দ্বারা লেখা হয় এবং উদ্ধৃত মূল নিবন্ধগুলির লিঙ্কগুলি অন্তর্ভুক্ত করে।
সংবাদ নিবন্ধগুলিতে বহু-নথিপত্রের সংক্ষিপ্তসারের জন্য এটি প্রথম বড় আকারের ডেটাসেট।
প্রতিটি রেকর্ড দুটি বৈশিষ্ট্য আছে:
-
document
: সংবাদ নিবন্ধের পাঠ্য, বিশেষ টোকেন দ্বারা পৃথক করা হয়েছে "|||||"। summary
: সংবাদের সারাংশ।সোর্স কোড :
tfds.datasets.multi_news.Builder
সংস্করণ :
-
1.0.0
: প্রাথমিক প্রকাশ। -
2.0.0
: [ব্যবহার করবেন না] বৈধ URL সহ ডেটাসেট আপডেট করুন। -
2.1.0
(ডিফল্ট) : সঠিক URL গুলি সহ ডেটাসেট আপডেট করুন৷ এই সংস্করণের URLগুলি HuggingFace-এর ডেটাসেট রেপো থেকে এসেছে, যা একই লেখক দ্বারা তৈরি করা হয়েছে: https://huggingface.co/datasets/alexfabbri/multi_news
-
ডাউনলোড সাইজঃ
721.73 MiB
ডেটাসেটের আকার :
666.50 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 5,622 |
'train' | 44,972 |
'validation' | 5,622 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
নথি | পাঠ্য | স্ট্রিং | ||
সারাংশ | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):('document', 'summary')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@misc{alex2019multinews,
title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
year={2019},
eprint={1906.01749},
archivePrefix={arXiv},
primaryClass={cs.CL}
}