- Description :
Ensemble de données multi-actualités
Multi-News propose des articles d'actualité et des résumés rédigés par des experts, issus du site d'information newser.com
. Chaque résumé est rédigé par des rédacteurs professionnels et inclut des liens vers les articles originaux cités.
Il s’agit du premier ensemble de données à grande échelle pour la synthèse multi-documents d’articles de presse.
Chaque enregistrement a deux caractéristiques :
-
document
: Textes d'articles de presse, séparés par un jeton spécial "|||||". summary
: Résumé de l'actualité.Documentation supplémentaire : Explorer sur les documents avec le code
Page d'accueil : https://github.com/Alex-Fabbri/Multi-News
Code source :
tfds.datasets.multi_news.Builder
Versions :
-
1.0.0
: Version initiale. -
2.0.0
: [Ne pas utiliser] Mettre à jour l'ensemble de données avec des URL valides. -
2.1.0
(par défaut) : Mettre à jour le jeu de données avec les URL correctes. Les URL de cette version proviennent du dépôt de données de HuggingFace, géré par le même auteur : https://huggingface.co/datasets/alexfabbri/multi_news
-
Taille du téléchargement :
721.73 MiB
Taille de l'ensemble de données :
666.50 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 5 622 |
'train' | 44 972 |
'validation' | 5 622 |
- Structure des fonctionnalités :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Type D | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
document | Texte | chaîne | ||
résumé | Texte | chaîne |
Clés supervisées (Voir
as_supervised
doc ):('document', 'summary')
Figure ( tfds.show_examples ) : Non pris en charge.
Exemples ( tfds.as_dataframe ) :
- Citation :
@misc{alex2019multinews,
title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
year={2019},
eprint={1906.01749},
archivePrefix={arXiv},
primaryClass={cs.CL}
}