- Deskripsi :
DocNLI adalah kumpulan data berskala besar untuk inferensi bahasa alami (NLI) tingkat dokumen. DocNLI diubah dari berbagai masalah NLP dan mencakup banyak genre teks. Premisnya selalu berada dalam perincian dokumen, sedangkan hipotesis bervariasi panjangnya dari satu kalimat hingga bagian dengan ratusan kata. Berbeda dengan beberapa kumpulan data NLI tingkat kalimat yang ada, DocNLI memiliki artefak yang sangat terbatas.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://github.com/salesforce/DocNLI/
Kode sumber :
tfds.text.docnli.DocNLIVersi :
-
1.0.0(default): Rilis awal.
-
Ukuran unduhan :
313.89 MiBUkuran dataset :
3.07 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'test' | 267.086 |
'train' | 942.314 |
'validation' | 234.258 |
- Struktur fitur :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
| Fitur | Kelas | Membentuk | Dtype | Keterangan |
|---|---|---|---|---|
| fiturDict | ||||
| hipotesa | Teks | rangkaian | ||
| label | LabelKelas | int64 | ||
| premis | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_superviseddoc ):NoneGambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@inproceedings{yin-etal-2021-docnli,
title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Bangkok, Thailand",
publisher = "Association for Computational Linguistics",
}