- opis :
WikiDialog to duży zbiór danych syntetycznie generowanych rozmów poszukujących informacji. Każda rozmowa w zbiorze danych zawiera dwóch mówców opartych na fragmencie z angielskiej Wikipedii: wypowiedzi jednego mówcy składają się z dokładnych zdań z tego fragmentu; drugi mówca jest generowany przez duży model językowy.
Opis konfiguracji: WikiDialog wygenerowany z inpaintera dialogów dostrojonego do OR-QuAC i QReCC.
OQoznacza OR-QuAC i QReCC.Strona główna : https://github.com/google-research/dialog-inpainting#wikidialog-oq
Kod źródłowy :
tfds.text.wiki_dialog.WikiDialogWersje :
-
1.0.0(domyślnie): Wersja początkowa.
-
Rozmiar pliku do pobrania :
7.04 GiBRozmiar zestawu danych :
36.58 GiBAutomatyczne buforowanie ( dokumentacja ): Nie
Podziały :
| Rozdzielać | Przykłady |
|---|---|
'train' | 11 264 129 |
'validation' | 113822 |
- Struktura funkcji :
FeaturesDict({
'author_num': Sequence(int32),
'passage': Text(shape=(), dtype=string),
'pid': Text(shape=(), dtype=string),
'sentences': Sequence(Text(shape=(), dtype=string)),
'title': Text(shape=(), dtype=string),
'utterances': Sequence(Text(shape=(), dtype=string)),
})
- Dokumentacja funkcji :
| Funkcja | Klasa | Kształt | Typ D | Opis |
|---|---|---|---|---|
| FunkcjeDict | ||||
| numer_autora | Sekwencja (Tensor) | (Nic,) | int32 | |
| przejście | Tekst | strunowy | ||
| pid | Tekst | strunowy | ||
| zdania | Sekwencja (tekst) | (Nic,) | strunowy | |
| tytuł | Tekst | strunowy | ||
| wypowiedzi | Sekwencja (tekst) | (Nic,) | strunowy |
Klucze nadzorowane (Zobacz dokument
as_supervised):NoneRysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :
@inproceedings{dai2022dialoginpainting,
title={Dialog Inpainting: Turning Documents to Dialogs},
author={Dai, Zhuyun and Chaganty, Arun Tejasvi and Zhao, Vincent and Amini, Aida and Green, Mike and Rashid, Qazi and Guu, Kelvin},
booktitle={International Conference on Machine Learning (ICML)},
year={2022},
organization={PMLR}
}