- وصف :
ASQA هي أول مجموعة بيانات تجيب على الأسئلة الطويلة وتركز على الأسئلة الواقعية الغامضة. يختلف كل سؤال عن مجموعات بيانات الإجابات الطويلة السابقة، حيث يتم شرح كل سؤال بكل من الإجابات الطويلة وأزواج الأسئلة والأجوبة الاستخراجية، والتي يجب أن تكون قابلة للإجابة من خلال المقطع الذي تم إنشاؤه. سيتم تقييم الإجابة الطويلة التي تم إنشاؤها باستخدام دقة ROUGE وQA. لقد أظهرنا أن مقاييس التقييم هذه ترتبط بالحكم البشري بشكل جيد. في هذا المستودع، قمنا بإصدار مجموعة بيانات ASQA، مع رمز التقييم: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>
الصفحة الرئيسية : https://github.com/google-research/language/tree/master/language/asqa
كود المصدر :
tfds.datasets.asqa.Builder
الإصدارات :
-
1.0.0
: الإصدار الأولي. -
2.0.0
(افتراضي) : ينتقل معرف العينة من int32 (الفائض) إلى int64.
-
حجم التحميل :
17.86 MiB
حجم مجموعة البيانات :
14.51 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'dev' | 948 |
'train' | 4,353 |
- هيكل الميزة :
FeaturesDict({
'ambiguous_question': Text(shape=(), dtype=string),
'annotations': Sequence({
'knowledge': Sequence({
'content': Text(shape=(), dtype=string),
'wikipage': Text(shape=(), dtype=string),
}),
'long_answer': Text(shape=(), dtype=string),
}),
'qa_pairs': Sequence({
'context': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'short_answers': Sequence(Text(shape=(), dtype=string)),
'wikipage': Text(shape=(), dtype=string),
}),
'sample_id': int64,
'wikipages': Sequence({
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع D | وصف |
---|---|---|---|---|
المميزاتDict | ||||
ambiguous_question | نص | خيط | سؤال واضح من AmbigQA. | |
التعليقات التوضيحية | تسلسل | إجابات طويلة على السؤال الغامض الذي وضعه معلقو ASQA. | ||
الشروح/المعرفة | تسلسل | قائمة القطع المعرفية الإضافية. | ||
الشروح/المعرفة/المحتوى | نص | خيط | مقطع من ويكيبيديا. | |
الشروح/المعرفة/صفحة ويكي | نص | خيط | عنوان صفحة ويكيبيديا التي تم أخذ المقطع منها. | |
التعليقات التوضيحية/long_answer | نص | خيط | تعليق توضيحي. | |
qa_pairs | تسلسل | أزواج الأسئلة والأجوبة من AmbigQA والتي يتم استخدامها لتوضيح. | ||
qa_pairs/context | نص | خيط | تم توفير سياق إضافي. | |
qa_pairs/question | نص | خيط | ||
qa_pairs/short_answers | التسلسل (النص) | (لا أحد،) | خيط | قائمة الإجابات القصيرة من AmbigQA. |
qa_pairs/wikipage | نص | خيط | عنوان صفحة ويكيبيديا التي تم أخذ السياق الإضافي منها. | |
Sample_id | الموتر | int64 | ||
صفحات ويكي | تسلسل | قائمة صفحات ويكيبيديا التي زارها معلقو AmbigQA. | ||
صفحات ويكي/العنوان | نص | خيط | عنوان صفحة ويكيبيديا. | |
صفحات ويكي/url | نص | خيط | رابط إلى صفحة ويكيبيديا. |
المفاتيح الخاضعة للإشراف (راجع
as_supervised
doc ):None
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}