- توضیحات :
SAMSum Corpus حاوی بیش از 16 هزار گفتگوی چت با خلاصه های دستی است.
دو ویژگی وجود دارد:
- گفتگو: متن گفتگو.
- خلاصه: خلاصه مکتوب انسان از گفتگو.
id: شناسه یک مثال.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://arxiv.org/src/1911.12237v2/anc
کد منبع :
tfds.datasets.samsum.Builderنسخه ها :
-
1.0.0(پیش فرض): بدون یادداشت انتشار.
-
اندازه دانلود :
Unknown sizeحجم مجموعه داده :
10.71 MiBدستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir(پیشفرض~/tensorflow_datasets/downloads/manual/):
https://arxiv.org/src/1911.12237v2/anc/corpus.7z را دانلود کنید، فشرده سازی کنید و train.json، val.json و test.json را در پوشه manual قرار دهید.ذخیره خودکار ( اسناد ): بله
تقسیم ها :
| شکاف | مثال ها |
|---|---|
'test' | 819 |
'train' | 14732 |
'validation' | 818 |
- ساختار ویژگی :
FeaturesDict({
'dialogue': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
| ویژگی | کلاس | شکل | نوع D | شرح |
|---|---|---|---|---|
| FeaturesDict | ||||
| گفتگو | متن | رشته | ||
| شناسه | متن | رشته | ||
| خلاصه | متن | رشته |
کلیدهای نظارت شده (به
as_supervisedنظارت شده مراجعه کنید):('dialogue', 'summary')شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@article{gliwa2019samsum,
title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
journal={arXiv preprint arXiv:1911.12237},
year={2019}
}