- Descrizione :
Set di dati multi-notizie
Multi-News è composto da articoli di notizie e riassunti scritti da persone provenienti dal sito di notizie newser.com
. Ogni riassunto è redatto professionalmente dai redattori e include link agli articoli originali citati.
Si tratta del primo set di dati su larga scala per la sintesi multi-documento di articoli di notizie.
Ogni record ha due caratteristiche:
-
document
: Testi di articoli di notizie, separati dal token speciale "|||||". summary
: Riassunto della notizia.Documentazione aggiuntiva : Esplora su Papers With Code
Pagina iniziale : https://github.com/Alex-Fabbri/Multi-News
Codice sorgente :
tfds.datasets.multi_news.Builder
Versioni :
-
1.0.0
: versione iniziale. -
2.0.0
: [Non utilizzare] Aggiorna il set di dati con URL validi. -
2.1.0
(predefinito) : aggiorna il dataset con gli URL corretti. Gli URL in questa versione provengono dal repository di dataset di HuggingFace, curato dallo stesso autore: https://huggingface.co/datasets/alexfabbri/multi_news
-
Dimensione download :
721.73 MiB
Dimensione del set di dati :
666.50 MiB
Memorizzato automaticamente nella cache ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 5.622 |
'train' | 44.972 |
'validation' | 5.622 |
- Struttura delle caratteristiche :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
documento | Testo | corda | ||
riepilogo | Testo | corda |
Chiavi supervisionate (vedere come_documento
as_supervised
):('document', 'summary')
Figura ( tfds.show_examples ): Non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@misc{alex2019multinews,
title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
year={2019},
eprint={1906.01749},
archivePrefix={arXiv},
primaryClass={cs.CL}
}