- Descripción :
Conjunto de datos de múltiples noticias
Multi-News incluye artículos periodísticos y resúmenes de estos artículos, elaborados por profesionales, del sitio web newser.com
. Cada resumen está redactado por editores profesionales e incluye enlaces a los artículos originales citados.
Este es el primer conjunto de datos a gran escala para el resumen de múltiples documentos sobre artículos de noticias.
Cada registro tiene dos características:
-
document
: Textos de artículos de noticias, separados por el símbolo especial "|||||". summary
: Resumen de la noticia.Documentación adicional : Explorar en Papers With Code
Página de inicio : https://github.com/Alex-Fabbri/Multi-News
Código fuente :
tfds.datasets.multi_news.Builder
Versiones :
-
1.0.0
: Versión inicial. -
2.0.0
: [No usar] Actualizar el conjunto de datos con URL válidas. -
2.1.0
(predeterminado) : Actualiza el conjunto de datos con las URL correctas. Las URL de esta versión provienen del repositorio de conjuntos de datos de HuggingFace, gestionado por el mismo autor: https://huggingface.co/datasets/alexfabbri/multi_news
-
Tamaño de descarga :
721.73 MiB
Tamaño del conjunto de datos :
666.50 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 5.622 |
'train' | 44.972 |
'validation' | 5.622 |
- Estructura de características :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Documentación de características :
Característica | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
documento | Texto | cadena | ||
resumen | Texto | cadena |
Teclas supervisadas (ver documento
as_supervised
):('document', 'summary')
Figura ( tfds.show_examples ): No compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@misc{alex2019multinews,
title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
year={2019},
eprint={1906.01749},
archivePrefix={arXiv},
primaryClass={cs.CL}
}