- Deskripsi :
Korpus Multi-Genre Natural Language Inference (MultiNLI) adalah kumpulan 433 ribu pasangan kalimat bersumber dari banyak orang yang dianotasi dengan informasi keterlibatan tekstual. Korpus dimodelkan pada korpus SNLI, tetapi berbeda karena mencakup berbagai genre teks lisan dan tulisan, dan mendukung evaluasi generalisasi lintas genre yang khas. Korpus tersebut menjadi dasar untuk tugas bersama Lokakarya RepEval 2017 di EMNLP di Kopenhagen.
Kode sumber :
tfds.text.MultiNLIMismatchVersi :
-
0.1.0(default): Tidak ada catatan rilis.
-
Ukuran unduhan :
216.34 MiBUkuran dataset :
90.91 MiBDi-cache otomatis ( dokumentasi ): Ya
Perpecahan :
| Membelah | Contoh |
|---|---|
'train' | 392.702 |
'validation' | 10.000 |
- Struktur fitur :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': Text(shape=(), dtype=string),
'premise': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
| Fitur | Kelas | Membentuk | Dtype | Keterangan |
|---|---|---|---|---|
| fiturDict | ||||
| hipotesa | Teks | rangkaian | ||
| label | Teks | rangkaian | ||
| premis | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_superviseddoc ):NoneGambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@InProceedings{N18-1101,
author = "Williams, Adina
and Nangia, Nikita
and Bowman, Samuel",
title = "A Broad-Coverage Challenge Corpus for
Sentence Understanding through Inference",
booktitle = "Proceedings of the 2018 Conference of
the North American Chapter of the
Association for Computational Linguistics:
Human Language Technologies, Volume 1 (Long
Papers)",
year = "2018",
publisher = "Association for Computational Linguistics",
pages = "1112--1122",
location = "New Orleans, Louisiana",
url = "http://aclweb.org/anthology/N18-1101"
}