multi_news

  • Описание :

Набор данных о нескольких новостях

Раздел Multi-News содержит новостные статьи и их краткие изложения, написанные вручную, с новостного сайта newser.com . Каждое изложение составлено профессиональными редакторами и содержит ссылки на оригинальные статьи.

Это первый крупномасштабный набор данных для обобщения множества документов новостных статей.

Каждая запись имеет две особенности:

  • document : Тексты новостных статей, разделенные специальным знаком «|||||».
  • summary : Краткое изложение новостей.

  • Дополнительная документация : изучите статьи с кодом

  • Домашняя страница : https://github.com/Alex-Fabbri/Multi-News

  • Исходный код : tfds.datasets.multi_news.Builder

  • Версии :

    • 1.0.0 : Первоначальный выпуск.
    • 2.0.0 : [Не использовать] Обновить набор данных, используя действительные URL-адреса.
    • 2.1.0 (по умолчанию) : Обновите набор данных, указав правильные URL-адреса. URL-адреса в этой версии взяты из репозитория набора данных HuggingFace, который курируется тем же автором: https://huggingface.co/datasets/alexfabbri/multi_news
  • Размер загрузки : 721.73 MiB

  • Размер набора данных : 666.50 MiB

  • Автоматическое кэширование ( документация ): Нет

  • Разделы :

Расколоть Примеры
'test' 5,622
'train' 44,972
'validation' 5,622
  • Структура объекта :
FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Сорт Форма Dtype Описание
FeaturesDict
документ Текст нить
краткое содержание Текст нить
  • Цитата :
@misc{alex2019multinews,
    title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
    author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
    year={2019},
    eprint={1906.01749},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}