- وصف :
مجموعة بيانات تحتوي على 14 ألف محادثة مع 81 ألف زوج من الأسئلة والأجوبة. تم بناء QReCC على أسئلة من TREC CAsT وQuAC وGoogle Natural Questions.
الصفحة الرئيسية : https://github.com/apple/ml-qrecc
كود المصدر :
tfds.text.qrecc.QReCCالإصدارات :
-
1.0.0(افتراضي): الإصدار الأولي.
-
حجم التحميل :
7.60 MiBحجم مجموعة البيانات :
69.29 MiBالتخزين المؤقت التلقائي ( الوثائق ): نعم
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 16,451 |
'train' | 63,501 |
- هيكل الميزة :
FeaturesDict({
'answer': Text(shape=(), dtype=string),
'answer_url': Text(shape=(), dtype=string),
'context': Sequence(Text(shape=(), dtype=string)),
'conversation_id': Scalar(shape=(), dtype=int32, description=The id of the conversation.),
'question': Text(shape=(), dtype=string),
'question_rewrite': Text(shape=(), dtype=string),
'source': Text(shape=(), dtype=string),
'turn_id': Scalar(shape=(), dtype=int32, description=The id of the conversation turn, within a conversation.),
})
- وثائق الميزة :
| ميزة | فصل | شكل | نوع D | وصف |
|---|---|---|---|---|
| المميزاتDict | ||||
| إجابة | نص | خيط | ||
| Answer_url | نص | خيط | ||
| سياق | التسلسل (النص) | (لا أحد،) | خيط | |
| محادثة_id | العددية | int32 | معرف المحادثة | |
| سؤال | نص | خيط | ||
| question_rewrite | نص | خيط | ||
| مصدر | نص | خيط | المصدر الأصلي للبيانات - إما QuAC أو CAsT أو Natural Questions | |
| Turn_id | العددية | int32 | يتحول معرف المحادثة داخل المحادثة. |
المفاتيح الخاضعة للإشراف (راجع
as_superviseddoc ):Noneالشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{qrecc,
title={Open-Domain Question Answering Goes Conversational via Question Rewriting},
author={Anantha, Raviteja and Vakulenko, Svitlana and Tu, Zhucheng and Longpre, Shayne and Pulman, Stephen and Chappidi, Srinivas},
journal={Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
year={2021}
}