- Описание :
SAMSum Corpus содержит более 16 000 чат-диалогов с аннотированными вручную резюме.
Есть две особенности:
- диалог: текст диалога.
- резюме: написанное человеком краткое изложение диалога.
id: идентификатор примера.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://arxiv.org/src/1911.12237v2/anc
Исходный код :
tfds.datasets.samsum.BuilderВерсии :
-
1.0.0(по умолчанию): нет примечаний к выпуску.
-
Размер загрузки :
Unknown sizeРазмер набора данных :
10.71 MiB.Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в
download_config.manual_dir(по умолчанию~/tensorflow_datasets/downloads/manual/):
Загрузите https://arxiv.org/src/1911.12237v2/anc/corpus.7z, распакуйте и поместите train.json, val.json и test.json в папку с инструкциями.Автоматическое кэширование ( документация ): Да
Сплиты :
| Расколоть | Примеры |
|---|---|
'test' | 819 |
'train' | 14 732 |
'validation' | 818 |
- Структура функции :
FeaturesDict({
'dialogue': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| ОсобенностиDict | ||||
| диалог | Текст | нить | ||
| я бы | Текст | нить | ||
| резюме | Текст | нить |
Контролируемые ключи (см.
as_superviseddoc ):('dialogue', 'summary')Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@article{gliwa2019samsum,
title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
journal={arXiv preprint arXiv:1911.12237},
year={2019}
}