- Descriptif :
Le corpus Multi-Genre Natural Language Inference (MultiNLI) est une collection de 433 000 paires de phrases annotées avec des informations d'implication textuelle. Le corpus est calqué sur le corpus SNLI, mais diffère en ce qu'il couvre une gamme de genres de textes parlés et écrits, et prend en charge une évaluation de généralisation inter-genres distincte. Le corpus a servi de base à la tâche partagée de l'atelier RepEval 2017 à l'EMNLP à Copenhague.
Page d' accueil : https://www.nyu.edu/projects/bowman/multinli/
Code source :
tfds.text.MultiNLIMismatchVersions :
-
0.1.0(par défaut) : aucune note de version.
-
Taille du téléchargement :
216.34 MiBTaille du jeu de données :
90.91 MiBMise en cache automatique ( documentation ): Oui
Fractionnements :
| Diviser | Exemples |
|---|---|
'train' | 392 702 |
'validation' | 10 000 |
- Structure des fonctionnalités :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': Text(shape=(), dtype=string),
'premise': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
| Caractéristique | Classer | Forme | Dtype | La description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| hypothèse | Texte | chaîne de caractères | ||
| étiquette | Texte | chaîne de caractères | ||
| prémisse | Texte | chaîne de caractères |
Clés supervisées (Voir
as_superviseddoc ):NoneFigure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@InProceedings{N18-1101,
author = "Williams, Adina
and Nangia, Nikita
and Bowman, Samuel",
title = "A Broad-Coverage Challenge Corpus for
Sentence Understanding through Inference",
booktitle = "Proceedings of the 2018 Conference of
the North American Chapter of the
Association for Computational Linguistics:
Human Language Technologies, Volume 1 (Long
Papers)",
year = "2018",
publisher = "Association for Computational Linguistics",
pages = "1112--1122",
location = "New Orleans, Louisiana",
url = "http://aclweb.org/anthology/N18-1101"
}