- الوصف :
تحتوي مجموعة SAMSum Corpus على أكثر من 16 ألف حوارات دردشة مع ملخصات مشروحة يدويًا.
هناك نوعان من الميزات:
- الحوار: نص الحوار.
- الملخص: الملخص البشري المكتوب للحوار.
معرف: معرف مثال.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://arxiv.org/src/1911.12237v2/anc
كود المصدر :
tfds.datasets.samsum.Builderإصدارات :
-
1.0.0(افتراضي): لا توجد ملاحظات حول الإصدار.
-
حجم التنزيل :
Unknown sizeحجم مجموعة البيانات :
10.71 MiBإرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى
download_config.manual_dir(الإعدادات الافتراضية على~/tensorflow_datasets/downloads/manual/):
قم بتنزيل https://arxiv.org/src/1911.12237v2/anc/corpus.7z ، وقم بفك الضغط ووضع train.json و val.json و test.json في دليل فولدر.التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
| انشق، مزق | أمثلة |
|---|---|
'test' | 819 |
'train' | 14،732 |
'validation' | 818 |
- هيكل الميزة :
FeaturesDict({
'dialogue': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- وثائق الميزة :
| ميزة | فصل | شكل | نوع | وصف |
|---|---|---|---|---|
| الميزات | ||||
| حوار | نص | سلسلة | ||
| هوية شخصية | نص | سلسلة | ||
| ملخص | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر
as_superviseddoc ):('dialogue', 'summary')الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{gliwa2019samsum,
title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
journal={arXiv preprint arXiv:1911.12237},
year={2019}
}