- תיאור :
SAMSum Corpus מכיל יותר מ-16,000 דיאלוגים של צ'אט עם סיכומים עם הערות ידנית.
ישנן שתי תכונות:
- דיאלוג: טקסט של דיאלוג.
- סיכום: סיכום כתוב אנושי של הדיאלוג.
id: id של דוגמה.
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://arxiv.org/src/1911.12237v2/anc
קוד מקור :
tfds.datasets.samsum.Builderגרסאות :
-
1.0.0(ברירת מחדל): אין הערות שחרור.
-
גודל הורדה :
Unknown sizeגודל ערכת נתונים:
10.71 MiBהוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל
download_config.manual_dir(ברירת המחדל היא~/tensorflow_datasets/downloads/manual/):
הורד את https://arxiv.org/src/1911.12237v2/anc/corpus.7z, שחרר את הדחיסה והצב את train.json, val.json ו-test.json בתיקייה הידנית.שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'test' | 819 |
'train' | 14,732 |
'validation' | 818 |
- מבנה תכונה :
FeaturesDict({
'dialogue': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
| תכונה | מעמד | צוּרָה | Dtype | תיאור |
|---|---|---|---|---|
| FeaturesDict | ||||
| דו שיח | טֶקסט | חוּט | ||
| תְעוּדַת זֶהוּת | טֶקסט | חוּט | ||
| סיכום | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_superviseddoc ):('dialogue', 'summary')איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@article{gliwa2019samsum,
title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
journal={arXiv preprint arXiv:1911.12237},
year={2019}
}