- বর্ণনা :
WikiDialog হল সিন্থেটিকভাবে তৈরি তথ্য-সন্ধানী কথোপকথনের একটি বড় ডেটাসেট। ডেটাসেটের প্রতিটি কথোপকথনে ইংরেজি উইকিপিডিয়ার একটি অনুচ্ছেদে ভিত্তি করে দুটি স্পিকার থাকে: একজন বক্তার উচ্চারণ প্যাসেজ থেকে সঠিক বাক্য নিয়ে গঠিত; অন্য স্পিকার একটি বড় ভাষা মডেল দ্বারা উত্পন্ন হয়.
কনফিগারেশনের বিবরণ : OR-QuAC এবং QReCC-তে সংলাপ ইনপেইন্টার থেকে WikiDialog তৈরি করা হয়েছে।
OQমানে OR-QuAC এবং QReCC।হোমপেজ : https://github.com/google-research/dialog-inpainting#wikidialog-oq
উত্স কোড :
tfds.text.wiki_dialog.WikiDialogসংস্করণ :
-
1.0.0(ডিফল্ট): প্রাথমিক প্রকাশ।
-
ডাউনলোড আকার :
7.04 GiBডেটাসেটের আকার :
36.58 GiBস্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
| বিভক্ত | উদাহরণ |
|---|---|
'train' | 11,264,129 |
'validation' | 113,822 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'author_num': Sequence(int32),
'passage': Text(shape=(), dtype=string),
'pid': Text(shape=(), dtype=string),
'sentences': Sequence(Text(shape=(), dtype=string)),
'title': Text(shape=(), dtype=string),
'utterances': Sequence(Text(shape=(), dtype=string)),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
| বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
|---|---|---|---|---|
| ফিচারসডিক্ট | ||||
| লেখক_সংখ্যা | ক্রম (টেনসর) | (কোনটিই নয়,) | int32 | |
| উত্তরণ | পাঠ্য | স্ট্রিং | ||
| পিড | পাঠ্য | স্ট্রিং | ||
| বাক্য | ক্রম (পাঠ্য) | (কোনটিই নয়,) | স্ট্রিং | |
| শিরোনাম | পাঠ্য | স্ট্রিং | ||
| উচ্চারণ | ক্রম (পাঠ্য) | (কোনটিই নয়,) | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_superviseddoc ):Noneচিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{dai2022dialoginpainting,
title={Dialog Inpainting: Turning Documents to Dialogs},
author={Dai, Zhuyun and Chaganty, Arun Tejasvi and Zhao, Vincent and Amini, Aida and Green, Mike and Rashid, Qazi and Guu, Kelvin},
booktitle={International Conference on Machine Learning (ICML)},
year={2022},
organization={PMLR}
}