- Descripción :
WikiDialog es un gran conjunto de datos de conversaciones de búsqueda de información generadas sintéticamente. Cada conversación en el conjunto de datos contiene dos hablantes basados en un pasaje de Wikipedia en inglés: las declaraciones de un hablante consisten en oraciones exactas del pasaje; el otro hablante es generado por un gran modelo de lenguaje.
Descripción de la configuración : WikiDialog generado a partir del cuadro de diálogo inpainter ajustado en OR-QuAC y QReCC.
OQsignifica OR-QuAC y QReCC.Página de inicio: https://github.com/google-research/dialog-inpainting#wikidialog-oq
Código fuente :
tfds.text.wiki_dialog.WikiDialogVersiones :
-
1.0.0(predeterminado): versión inicial.
-
Tamaño de descarga :
7.04 GiBTamaño del conjunto de datos :
36.58 GiBAlmacenamiento automático en caché ( documentación ): No
Divisiones :
| Separar | Ejemplos |
|---|---|
'train' | 11,264,129 |
'validation' | 113,822 |
- Estructura de características :
FeaturesDict({
'author_num': Sequence(int32),
'passage': Text(shape=(), dtype=string),
'pid': Text(shape=(), dtype=string),
'sentences': Sequence(Text(shape=(), dtype=string)),
'title': Text(shape=(), dtype=string),
'utterances': Sequence(Text(shape=(), dtype=string)),
})
- Documentación de características :
| Rasgo | Clase | Forma | Tipo D | Descripción |
|---|---|---|---|---|
| CaracterísticasDict | ||||
| autor_num | Secuencia (tensor) | (Ninguna,) | int32 | |
| paso | Texto | cuerda | ||
| pid | Texto | cuerda | ||
| oraciones | Secuencia (Texto) | (Ninguna,) | cuerda | |
| título | Texto | cuerda | ||
| declaraciones | Secuencia (Texto) | (Ninguna,) | cuerda |
Claves supervisadas (Ver
as_superviseddoc ):NoneFigura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@inproceedings{dai2022dialoginpainting,
title={Dialog Inpainting: Turning Documents to Dialogs},
author={Dai, Zhuyun and Chaganty, Arun Tejasvi and Zhao, Vincent and Amini, Aida and Green, Mike and Rashid, Qazi and Guu, Kelvin},
booktitle={International Conference on Machine Learning (ICML)},
year={2022},
organization={PMLR}
}