- Descriptif :
DocNLI est un ensemble de données à grande échelle pour l'inférence du langage naturel (NLI) au niveau du document. DocNLI est transformé à partir d'un large éventail de problèmes de PNL et couvre plusieurs genres de texte. Les prémisses restent toujours dans la granularité du document, tandis que les hypothèses varient en longueur, allant de phrases simples à des passages de centaines de mots. Contrairement à certains ensembles de données NLI existants au niveau de la phrase, DocNLI a des artefacts assez limités.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/salesforce/DocNLI/
Code source :
tfds.text.docnli.DocNLIVersions :
-
1.0.0(par défaut) : version initiale.
-
Taille du téléchargement :
313.89 MiBTaille du jeu de données :
3.07 GiBMise en cache automatique ( documentation ): Non
Fractionnements :
| Diviser | Exemples |
|---|---|
'test' | 267 086 |
'train' | 942 314 |
'validation' | 234 258 |
- Structure des fonctionnalités :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
| Caractéristique | Classer | Forme | Dtype | La description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| hypothèse | Texte | chaîne de caractères | ||
| étiquette | Étiquette de classe | int64 | ||
| prémisse | Texte | chaîne de caractères |
Clés supervisées (Voir
as_superviseddoc ):NoneFigure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@inproceedings{yin-etal-2021-docnli,
title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Bangkok, Thailand",
publisher = "Association for Computational Linguistics",
}