- Описание :
Набор данных о нескольких новостях
Раздел Multi-News содержит новостные статьи и их краткие изложения, написанные вручную, с новостного сайта newser.com
. Каждое изложение составлено профессиональными редакторами и содержит ссылки на оригинальные статьи.
Это первый крупномасштабный набор данных для обобщения множества документов новостных статей.
Каждая запись имеет две особенности:
-
document
: Тексты новостных статей, разделенные специальным знаком «|||||». summary
: Краткое изложение новостей.Дополнительная документация : изучите статьи с кодом
Домашняя страница : https://github.com/Alex-Fabbri/Multi-News
Исходный код :
tfds.datasets.multi_news.Builder
Версии :
-
1.0.0
: Первоначальный выпуск. -
2.0.0
: [Не использовать] Обновить набор данных, используя действительные URL-адреса. -
2.1.0
(по умолчанию) : Обновите набор данных, указав правильные URL-адреса. URL-адреса в этой версии взяты из репозитория набора данных HuggingFace, который курируется тем же автором: https://huggingface.co/datasets/alexfabbri/multi_news
-
Размер загрузки :
721.73 MiB
Размер набора данных :
666.50 MiB
Автоматическое кэширование ( документация ): Нет
Разделы :
Расколоть | Примеры |
---|---|
'test' | 5,622 |
'train' | 44,972 |
'validation' | 5,622 |
- Структура объекта :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Сорт | Форма | Dtype | Описание |
---|---|---|---|---|
FeaturesDict | ||||
документ | Текст | нить | ||
краткое содержание | Текст | нить |
Контролируемые ключи (см.
as_supervised
doc ):('document', 'summary')
Рисунок ( tfds.show_examples ): Не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@misc{alex2019multinews,
title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
year={2019},
eprint={1906.01749},
archivePrefix={arXiv},
primaryClass={cs.CL}
}