- الوصف :
مجموعة بيانات ستانفورد للإجابة على الأسئلة (SQuAD) هي مجموعة بيانات لفهم القراءة ، تتكون من أسئلة يطرحها العاملون في الحشود على مجموعة من مقالات ويكيبيديا ، حيث تكون الإجابة على كل سؤال عبارة عن جزء من النص ، أو امتداد ، من فقرة القراءة المقابلة ، أو السؤال قد يكون غير قابل للإجابة.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://rajpurkar.github.io/SQuAD-explorer/
كود المصدر :
tfds.datasets.squad.Builderإصدارات :
-
3.0.0(افتراضي): يعمل على إصلاح مشكلة تتعلق بعدد صغير من الأمثلة (19) حيث تكون فترات الإجابة غير محاذاة بسبب إزالة المسافة البيضاء من السياق.
-
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised):Noneالشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@article{2016arXiv160605250R,
author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
Konstantin and {Liang}, Percy},
title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
journal = {arXiv e-prints},
year = 2016,
eid = {arXiv:1606.05250},
pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
eprint = {1606.05250},
}
فرقة / v1.1 (التكوين الافتراضي)
وصف التكوين : الإصدار 1.1.0 من SQUAD
حجم التحميل :
33.51 MiBحجم مجموعة البيانات :
94.06 MiBالتخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
| انشق، مزق | أمثلة |
|---|---|
'train' | 87599 |
'validation' | 10570 |
- هيكل الميزة :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- وثائق الميزة :
| ميزة | فصل | شكل | نوع | وصف |
|---|---|---|---|---|
| الميزات | ||||
| الإجابات | تسلسل | |||
| الإجابات / answer_start | موتر | int32 | ||
| الإجابات / النص | نص | سلسلة | ||
| سياق الكلام | نص | سلسلة | ||
| هوية شخصية | موتر | سلسلة | ||
| سؤال | نص | سلسلة | ||
| لقب | نص | سلسلة |
- أمثلة ( tfds.as_dataframe ):
فرقة / v2.0
وصف التكوين : الإصدار 2.0.0 من SQUAD
حجم التحميل :
44.34 MiBحجم مجموعة البيانات :
148.54 MiBالتخزين المؤقت التلقائي ( التوثيق ): نعم (التحقق من الصحة) ، فقط عندما يكون
shuffle_files=False(قطار)الانقسامات :
| انشق، مزق | أمثلة |
|---|---|
'train' | 130319 |
'validation' | 11873 |
- هيكل الميزة :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'is_impossible': bool,
'plausible_answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- وثائق الميزة :
| ميزة | فصل | شكل | نوع | وصف |
|---|---|---|---|---|
| الميزات | ||||
| الإجابات | تسلسل | |||
| الإجابات / answer_start | موتر | int32 | ||
| الإجابات / النص | نص | سلسلة | ||
| سياق الكلام | نص | سلسلة | ||
| هوية شخصية | موتر | سلسلة | ||
| غير ممكن | موتر | منطقي | ||
| أجوبة معقولة | تسلسل | |||
| plausible_answers / answer_start | موتر | int32 | ||
| الجواب_المعقول / النص | نص | سلسلة | ||
| سؤال | نص | سلسلة | ||
| لقب | نص | سلسلة |
- أمثلة ( tfds.as_dataframe ):