- Описание :
DocNLI — это крупномасштабный набор данных для вывода естественного языка на уровне документа (NLI). DocNLI преобразован из широкого круга проблем НЛП и охватывает несколько жанров текста. Посылки всегда остаются в пределах детализации документа, тогда как длина гипотез варьируется от отдельных предложений до отрывков из сотен слов. В отличие от некоторых существующих наборов данных NLI на уровне предложений, DocNLI имеет довольно ограниченные артефакты.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/salesforce/DocNLI/
Исходный код :
tfds.text.docnli.DocNLIВерсии :
-
1.0.0(по умолчанию): Первоначальный выпуск.
-
Размер загрузки :
313.89 MiBРазмер набора данных :
3.07 GiBАвтоматическое кэширование ( документация ): Нет
Сплиты :
| Расколоть | Примеры |
|---|---|
'test' | 267 086 |
'train' | 942 314 |
'validation' | 234 258 |
- Структура функции :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| ОсобенностиDict | ||||
| гипотеза | Текст | нить | ||
| этикетка | Метка класса | int64 | ||
| помещение | Текст | нить |
Ключи под наблюдением (см . документ
as_supervised):NoneРисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{yin-etal-2021-docnli,
title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Bangkok, Thailand",
publisher = "Association for Computational Linguistics",
}