- Descrizione :
WikiDialog è un ampio set di dati di conversazioni di ricerca di informazioni generate sinteticamente. Ogni conversazione nel set di dati contiene due oratori basati su un passaggio di Wikipedia in inglese: le espressioni di un oratore consistono in frasi esatte del passaggio; l'altro parlante è generato da un grande modello linguistico.
Descrizione della configurazione : WikiDialog generato dalla finestra di dialogo inpainter ottimizzata su OR-QuAC e QReCC.
OQsta per OR-QuAC e QReCC.Pagina iniziale : https://github.com/google-research/dialog-inpainting#wikidialog-oq
Codice sorgente :
tfds.text.wiki_dialog.WikiDialogVersioni :
-
1.0.0(impostazione predefinita): versione iniziale.
-
Dimensione del download :
7.04 GiBDimensione del set di dati:
36.58 GiBCache automatica ( documentazione ): No
Divisioni :
| Diviso | Esempi |
|---|---|
'train' | 11.264.129 |
'validation' | 113.822 |
- Struttura delle caratteristiche :
FeaturesDict({
'author_num': Sequence(int32),
'passage': Text(shape=(), dtype=string),
'pid': Text(shape=(), dtype=string),
'sentences': Sequence(Text(shape=(), dtype=string)),
'title': Text(shape=(), dtype=string),
'utterances': Sequence(Text(shape=(), dtype=string)),
})
- Documentazione delle funzionalità :
| Caratteristica | Classe | Forma | Tipo D | Descrizione |
|---|---|---|---|---|
| CaratteristicheDict | ||||
| autore_num | Sequenza (tensore) | (Nessuno,) | int32 | |
| passaggio | Testo | corda | ||
| pid | Testo | corda | ||
| frasi | Sequenza(Testo) | (Nessuno,) | corda | |
| titolo | Testo | corda | ||
| espressioni | Sequenza(Testo) | (Nessuno,) | corda |
Chiavi supervisionate (Vedi
as_superviseddoc ):NoneFigura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@inproceedings{dai2022dialoginpainting,
title={Dialog Inpainting: Turning Documents to Dialogs},
author={Dai, Zhuyun and Chaganty, Arun Tejasvi and Zhao, Vincent and Amini, Aida and Green, Mike and Rashid, Qazi and Guu, Kelvin},
booktitle={International Conference on Machine Learning (ICML)},
year={2022},
organization={PMLR}
}