- Descripción :
Conjunto de datos de resumen extremo (XSum).
Hay dos características: - documento: artículo de entrada de noticias. - resumen: Resumen de una oración del artículo.
Estos datos deben descargarse y extraerse manualmente como se describe en https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md La carpeta 'xsum-extracts-from-downloads' debe comprimirse como 'xsum-extracts-from-downloads.tar.gz' y colóquelo en la carpeta descargada manualmente.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/EdinburghNLP/XSum/tree/master/XSum-Dataset
Código fuente :
tfds.summarization.XsumVersiones :
-
1.0.0: conjunto de datos sin limpieza. -
1.1.0(predeterminado): Elimina contenidos web.
-
Tamaño de la descarga :
2.59 MiBTamaño del conjunto de datos :
512.03 MiBInstrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en
download_config.manual_dir(el valor predeterminado es~/tensorflow_datasets/downloads/manual/):
Las instrucciones detalladas de descarga (que requieren ejecutar un script personalizado) están aquí: https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md#running-the-download-and-extraction-scripts , coloque el archivo xsum-extracts-from-downloads.tar.gz en manual_dir.Almacenamiento automático en caché ( documentación ): No
Divisiones :
| Separar | Ejemplos |
|---|---|
'test' | 11,301 |
'train' | 203,577 |
'validation' | 11,305 |
- Estructura de características :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Documentación de características :
| Rasgo | Clase | Forma | Tipo D | Descripción |
|---|---|---|---|---|
| CaracterísticasDict | ||||
| documento | Texto | cuerda | ||
| resumen | Texto | cuerda |
Claves supervisadas (Ver
as_supervised):('document', 'summary')Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@article{Narayan2018DontGM,
title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization},
author={Shashi Narayan and Shay B. Cohen and Mirella Lapata},
journal={ArXiv},
year={2018},
volume={abs/1808.08745}
}