- תיאור :
סטנפורד שאלות תשובות נתונים (SQuAD) הוא מערך נתונים של הבנת הנקרא, המורכב משאלות שהועלו על ידי עובדי המונים בקבוצה של מאמרים בוויקיפדיה, כאשר התשובה לכל שאלה היא קטע של טקסט, או טווח, מקטע הקריאה המתאים, או מהשאלה עלול להיות בלתי ניתן לתשובה.
תיעוד נוסף : חקור על ניירות עם קוד
קוד מקור :
tfds.datasets.squad.Builderגרסאות :
-
3.0.0(ברירת מחדל): פותר בעיה במספר קטן של דוגמאות (19) שבהן טווחי התשובות לא מיושרים עקב הסרת רווח לבן בהקשר.
-
מפתחות בפיקוח (ראה
as_superviseddoc ):Noneאיור ( tfds.show_examples ): לא נתמך.
ציטוט :
@article{2016arXiv160605250R,
author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
Konstantin and {Liang}, Percy},
title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
journal = {arXiv e-prints},
year = 2016,
eid = {arXiv:1606.05250},
pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
eprint = {1606.05250},
}
squad/v1.1 (תצורת ברירת המחדל)
תיאור תצורה : גרסה 1.1.0 של SQUAD
גודל הורדה :
33.51 MiBגודל מערך נתונים :
94.06 MiBשמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'train' | 87,599 |
'validation' | 10,570 |
- מבנה תכונה :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
| תכונה | מעמד | צוּרָה | Dtype | תיאור |
|---|---|---|---|---|
| FeaturesDict | ||||
| תשובות | סדר פעולות | |||
| answers/answer_start | מוֹתֵחַ | int32 | ||
| תשובות/טקסט | טֶקסט | חוּט | ||
| הֶקשֵׁר | טֶקסט | חוּט | ||
| תְעוּדַת זֶהוּת | מוֹתֵחַ | חוּט | ||
| שְׁאֵלָה | טֶקסט | חוּט | ||
| כותרת | טֶקסט | חוּט |
- דוגמאות ( tfds.as_dataframe ):
squad/v2.0
תיאור תצורה : גרסה 2.0.0 של SQUAD
גודל הורדה :
44.34 MiBגודל ערכת נתונים:
148.54 MiBשמור אוטומטי במטמון ( תיעוד ): כן (אימות), רק כאשר
shuffle_files=False(רכבת)פיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'train' | 130,319 |
'validation' | 11,873 |
- מבנה תכונה :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'is_impossible': bool,
'plausible_answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
| תכונה | מעמד | צוּרָה | Dtype | תיאור |
|---|---|---|---|---|
| FeaturesDict | ||||
| תשובות | סדר פעולות | |||
| answers/answer_start | מוֹתֵחַ | int32 | ||
| תשובות/טקסט | טֶקסט | חוּט | ||
| הֶקשֵׁר | טֶקסט | חוּט | ||
| תְעוּדַת זֶהוּת | מוֹתֵחַ | חוּט | ||
| בלתי אפשרי | מוֹתֵחַ | bool | ||
| תשובות_סבירות | סדר פעולות | |||
| plausible_answers/answer_start | מוֹתֵחַ | int32 | ||
| סבירות_תשובות/טקסט | טֶקסט | חוּט | ||
| שְׁאֵלָה | טֶקסט | חוּט | ||
| כותרת | טֶקסט | חוּט |
- דוגמאות ( tfds.as_dataframe ):