- תיאור :
ASQA הוא מערך המענה הראשון לשאלות ארוך המתמקד בשאלות עובדתיות מעורפלות. בשונה ממערכי נתונים קודמים של תשובות ארוכות, לכל שאלה יש הערות הן בתשובות ארוכות והן בצמדי שאלות ותשובות מחלצות, שעליהם ניתן לענות על ידי הקטע שנוצר. תשובה ארוכת צורה תוערך באמצעות דיוק ROUGE ו-QA כאחד. הראינו כי מדדי הערכה אלו תואמים היטב את השיפוט האנושי. במאגר זה אנו משחררים את מערך הנתונים של ASQA, יחד עם קוד ההערכה: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>
דף הבית : https://github.com/google-research/language/tree/master/language/asqa
קוד מקור :
tfds.datasets.asqa.Builder
גרסאות :
-
1.0.0
: שחרור ראשוני. -
2.0.0
(ברירת מחדל) : מזהה לדוגמה עובר מ-int32 (על גדותיו) ל-int64.
-
גודל הורדה :
17.86 MiB
גודל מערך נתונים :
14.51 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'dev' | 948 |
'train' | 4,353 |
- מבנה תכונה :
FeaturesDict({
'ambiguous_question': Text(shape=(), dtype=string),
'annotations': Sequence({
'knowledge': Sequence({
'content': Text(shape=(), dtype=string),
'wikipage': Text(shape=(), dtype=string),
}),
'long_answer': Text(shape=(), dtype=string),
}),
'qa_pairs': Sequence({
'context': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'short_answers': Sequence(Text(shape=(), dtype=string)),
'wikipage': Text(shape=(), dtype=string),
}),
'sample_id': int64,
'wikipages': Sequence({
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- תיעוד תכונה :
תכונה | מַחלָקָה | צוּרָה | Dtype | תֵאוּר |
---|---|---|---|---|
FeaturesDict | ||||
שאלה_דו-משמעית | טֶקסט | חוּט | שאלה לא משתמעת לשתי פנים מאת AmbigQA. | |
הערות | רֶצֶף | תשובות ארוכות לשאלה המעורפלת שנבנו על ידי מפרשי ASQA. | ||
הערות/ידע | רֶצֶף | רשימת קטעי ידע נוספים. | ||
הערות/ידע/תוכן | טֶקסט | חוּט | קטע מויקיפדיה. | |
הערות/ידע/וויקיפדיה | טֶקסט | חוּט | הכותרת של דף ויקיפדיה שממנו נלקח הקטע. | |
הערות/תשובה_ארוכה | טֶקסט | חוּט | ביאור. | |
qa_pairs | רֶצֶף | צמדי שאלות ותשובות מ- AmbigQA המשמשים לחוסר דו-משמעי. | ||
qa_pairs/context | טֶקסט | חוּט | הקשר נוסף מסופק. | |
qa_pairs/question | טֶקסט | חוּט | ||
qa_pairs/short_answers | רצף (טקסט) | (אַף לֹא אֶחָד,) | חוּט | רשימת תשובות קצרות מ- AmbigQA. |
qa_pairs/wikipage | טֶקסט | חוּט | הכותרת של דף ויקיפדיה שממנו נלקח ההקשר הנוסף. | |
sample_id | מוֹתֵחַ | int64 | ||
עמודי ויקיפדיה | רֶצֶף | רשימת דפי ויקיפדיה שאליהם ביקרו מפרסמי AmbigQA. | ||
wikipages/כותרת | טֶקסט | חוּט | כותרת עמוד ויקיפדיה. | |
wikipages/url | טֶקסט | חוּט | קישור לעמוד ויקיפדיה. |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}