- توضیحات :
ASQA اولین مجموعه داده پاسخگویی به سؤالات طولانی است که بر سؤالات فاکتوئید مبهم متمرکز است. متفاوت از مجموعه دادههای پاسخهای بلند قبلی، هر سؤال با پاسخهای بلند و جفتهای پرسش و پاسخ استخراجی حاشیهنویسی میشود که باید توسط متن تولید شده پاسخگو باشد. یک پاسخ طولانی ایجاد شده با استفاده از دقت ROUGE و QA ارزیابی خواهد شد. ما نشان دادیم که این معیارهای ارزیابی با قضاوت انسان به خوبی همبستگی دارند. در این مخزن مجموعه داده ASQA را همراه با کد ارزیابی منتشر می کنیم: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>
صفحه اصلی : https://github.com/google-research/language/tree/master/language/asqa
کد منبع :
tfds.datasets.asqa.Builder
نسخه ها :
-
1.0.0
: انتشار اولیه. -
2.0.0
(پیشفرض) : شناسه نمونه از int32 (سرریز) به int64 میرود.
-
حجم دانلود :
17.86 MiB
حجم مجموعه داده :
14.51 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :
تقسیم کنید | نمونه ها |
---|---|
'dev' | 948 |
'train' | 4,353 |
- ساختار ویژگی :
FeaturesDict({
'ambiguous_question': Text(shape=(), dtype=string),
'annotations': Sequence({
'knowledge': Sequence({
'content': Text(shape=(), dtype=string),
'wikipage': Text(shape=(), dtype=string),
}),
'long_answer': Text(shape=(), dtype=string),
}),
'qa_pairs': Sequence({
'context': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'short_answers': Sequence(Text(shape=(), dtype=string)),
'wikipage': Text(shape=(), dtype=string),
}),
'sample_id': int64,
'wikipages': Sequence({
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | توضیحات |
---|---|---|---|---|
FeaturesDict | ||||
مبهم_سوال | متن | رشته | سوال مبهم از AmbigQA. | |
حاشیه نویسی | دنباله | پاسخ های طولانی به سوال مبهم ساخته شده توسط حاشیه نویسان ASQA. | ||
حاشیه نویسی / دانش | دنباله | فهرست قطعات دانش اضافی | ||
حاشیه نویسی / دانش / محتوا | متن | رشته | قسمتی از ویکی پدیا | |
حاشیه نویسی / دانش / ویکی صفحه | متن | رشته | عنوان صفحه ویکیپدیا متن از آن گرفته شده است. | |
حاشیه نویسی/long_answer | متن | رشته | حاشیه نویسی. | |
ق_جفت | دنباله | جفتهای پرسش و پاسخ از AmbigQA که برای ابهامزدایی استفاده میشوند. | ||
qa_pairs/context | متن | رشته | زمینه اضافی ارائه شده است. | |
qa_pairs/سوال | متن | رشته | ||
ق_جفت/پاسخ_کوتاه | دنباله (متن) | (هیچ،) | رشته | لیست پاسخ های کوتاه از AmbigQA. |
qa_pairs/wikipage | متن | رشته | عنوان صفحه ویکی پدیا که زمینه اضافی از آن گرفته شده است. | |
نمونه_id | تانسور | int64 | ||
ویکی صفحات | دنباله | فهرست صفحات ویکی پدیا که توسط حاشیه نویسان AmbigQA بازدید شده است. | ||
ویکی صفحات/عنوان | متن | رشته | عنوان صفحه ویکی پدیا | |
ویکی صفحات/url | متن | رشته | پیوند به صفحه ویکی پدیا. |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}