- Descrição :
Conjunto de dados multi-notícias
O Multi-News consiste em artigos de notícias e resumos escritos por humanos desses artigos do site de notícias newser.com
. Cada resumo é escrito profissionalmente por editores e inclui links para os artigos originais citados.
Este é o primeiro conjunto de dados em larga escala para sumarização de múltiplos documentos em artigos de notícias.
Cada registro tem duas características:
-
document
: Textos de artigos de notícias, separados pelo token especial "|||||". summary
: Resumo das notícias.Documentação adicional : Explore em Papers With Code
Página inicial : https://github.com/Alex-Fabbri/Multi-News
Código fonte :
tfds.datasets.multi_news.Builder
Versões :
-
1.0.0
: Versão inicial. -
2.0.0
: [Não usar] Atualizar o conjunto de dados com URLs válidas. -
2.1.0
(padrão) : Atualiza o conjunto de dados com os URLs corretos. Os URLs nesta versão vêm do repositório de conjuntos de dados do HuggingFace, que é organizado pelo mesmo autor: https://huggingface.co/datasets/alexfabbri/multi_news
-
Tamanho do download :
721.73 MiB
Tamanho do conjunto de dados :
666.50 MiB
Cache automático ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 5.622 |
'train' | 44.972 |
'validation' | 5.622 |
- Estrutura de recursos :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Documentação de recursos :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
CaracterísticasDict | ||||
documento | Texto | corda | ||
resumo | Texto | corda |
Chaves supervisionadas (consulte o documento
as_supervised
):('document', 'summary')
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):
- Citação :
@misc{alex2019multinews,
title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
year={2019},
eprint={1906.01749},
archivePrefix={arXiv},
primaryClass={cs.CL}
}