- الوصف :
WikiDialog عبارة عن مجموعة بيانات كبيرة من محادثات البحث عن المعلومات التي تم إنشاؤها صناعياً. تحتوي كل محادثة في مجموعة البيانات على متحدثين متأصلين في مقطع من ويكيبيديا الإنجليزية: تتكون أقوال أحد المتحدثين من جمل دقيقة من المقطع ؛ يتم إنشاء المتحدث الآخر بواسطة نموذج لغة كبير.
وصف التكوين : WikiDialog تم إنشاؤه من مربع الحوار في الرسام المحدد في OR-QuAC و QReCC.
OQتعني OR-QuAC و QReCC.الصفحة الرئيسية : https://github.com/google-research/dialog-inpainting#wikidialog-oq
كود المصدر :
tfds.text.wiki_dialog.WikiDialogإصدارات :
-
1.0.0(افتراضي): الإصدار الأولي.
-
حجم التحميل :
7.04 GiBحجم مجموعة البيانات :
36.58 GiBالتخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
| انشق، مزق | أمثلة |
|---|---|
'train' | 11264129 |
'validation' | 113،822 |
- هيكل الميزة :
FeaturesDict({
'author_num': Sequence(int32),
'passage': Text(shape=(), dtype=string),
'pid': Text(shape=(), dtype=string),
'sentences': Sequence(Text(shape=(), dtype=string)),
'title': Text(shape=(), dtype=string),
'utterances': Sequence(Text(shape=(), dtype=string)),
})
- وثائق الميزة :
| ميزة | فصل | شكل | نوع | وصف |
|---|---|---|---|---|
| الميزات | ||||
| author_num | تسلسل (موتر) | (لا أحد،) | int32 | |
| الممر | نص | سلسلة | ||
| pid | نص | سلسلة | ||
| جمل | تسلسل (نص) | (لا أحد،) | سلسلة | |
| لقب | نص | سلسلة | ||
| الأقوال | تسلسل (نص) | (لا أحد،) | سلسلة |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised):Noneالشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{dai2022dialoginpainting,
title={Dialog Inpainting: Turning Documents to Dialogs},
author={Dai, Zhuyun and Chaganty, Arun Tejasvi and Zhao, Vincent and Amini, Aida and Green, Mike and Rashid, Qazi and Guu, Kelvin},
booktitle={International Conference on Machine Learning (ICML)},
year={2022},
organization={PMLR}
}