- Описание :
Набор данных экстремального суммирования (XSum).
Есть две функции: - документ: Входная новостная статья. - резюме: Краткое изложение статьи одним предложением.
Эти данные необходимо загрузить и извлечь вручную, как описано в https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md . Папка «xsum-extracts-from-downloads» должна быть сжата как 'xsum-extracts-from-downloads.tar.gz' и поместите в загруженную вручную папку.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/EdinburghNLP/XSum/tree/master/XSum-Dataset
Исходный код :
tfds.summarization.XsumВерсии :
-
1.0.0: Набор данных без очистки. -
1.1.0(по умолчанию): Удаляет веб-контент.
-
Размер загрузки :
2.59 MiBРазмер набора данных :
512.03 MiB.Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в
download_config.manual_dir(по умолчанию~/tensorflow_datasets/downloads/manual/):
Подробные инструкции по загрузке (для которых требуется запуск специального скрипта) находятся здесь: https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md#running-the-download-and-extraction-scripts . , поместите файл xsum-extracts-from-downloads.tar.gz в manual_dir.Автоматическое кэширование ( документация ): Нет
Сплиты :
| Расколоть | Примеры |
|---|---|
'test' | 11 301 |
'train' | 203 577 |
'validation' | 11 305 |
- Структура функции :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| ОсобенностиDict | ||||
| документ | Текст | нить | ||
| резюме | Текст | нить |
Контролируемые ключи (см.
as_superviseddoc ):('document', 'summary')Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@article{Narayan2018DontGM,
title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization},
author={Shashi Narayan and Shay B. Cohen and Mirella Lapata},
journal={ArXiv},
year={2018},
volume={abs/1808.08745}
}