- विवरण :
एएसक्यूए पहला दीर्घकालिक प्रश्न उत्तर देने वाला डेटासेट है जो अस्पष्ट तथ्यात्मक प्रश्नों पर केंद्रित है। पिछले लंबे-फ़ॉर्म वाले उत्तर डेटासेट से अलग, प्रत्येक प्रश्न को लंबे-फ़ॉर्म वाले उत्तरों और निष्कर्षात्मक प्रश्न-उत्तर जोड़े दोनों के साथ एनोटेट किया जाता है, जिसका उत्तर उत्पन्न अनुच्छेद द्वारा दिया जाना चाहिए। उत्पन्न दीर्घ-फ़ॉर्म उत्तर का मूल्यांकन ROUGE और QA सटीकता दोनों का उपयोग करके किया जाएगा। हमने दिखाया कि ये मूल्यांकन मेट्रिक्स मानवीय निर्णय के साथ अच्छी तरह से जुड़े हुए हैं। इस रिस्टोरी में हम मूल्यांकन कोड के साथ ASQA डेटासेट जारी करते हैं: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>
मुखपृष्ठ : https://github.com/google-research/भाषा/पेड़/ मास्टर/भाषा/asqa
स्रोत कोड :
tfds.datasets.asqa.Builderसंस्करण :
-
1.0.0: प्रारंभिक रिलीज. -
2.0.0(डिफ़ॉल्ट) : नमूना आईडी int32 (अतिप्रवाह) से int64 तक जाती है।
-
डाउनलोड आकार :
17.86 MiBडेटासेट का आकार :
14.51 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'dev' | 948 |
'train' | 4,353 |
- फ़ीचर संरचना :
FeaturesDict({
'ambiguous_question': Text(shape=(), dtype=string),
'annotations': Sequence({
'knowledge': Sequence({
'content': Text(shape=(), dtype=string),
'wikipage': Text(shape=(), dtype=string),
}),
'long_answer': Text(shape=(), dtype=string),
}),
'qa_pairs': Sequence({
'context': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'short_answers': Sequence(Text(shape=(), dtype=string)),
'wikipage': Text(shape=(), dtype=string),
}),
'sample_id': int64,
'wikipages': Sequence({
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
|---|---|---|---|---|
| फीचर्सडिक्ट | ||||
| अस्पष्ट_प्रश्न | मूलपाठ | डोरी | एंबिगक्यूए से अस्पष्ट प्रश्न। | |
| एनोटेशन | अनुक्रम | एएसक्यूए एनोटेटर्स द्वारा निर्मित अस्पष्ट प्रश्न के लंबे-चौड़े उत्तर। | ||
| टिप्पणियाँ/ज्ञान | अनुक्रम | अतिरिक्त ज्ञान के टुकड़ों की सूची. | ||
| टिप्पणियाँ/ज्ञान/सामग्री | मूलपाठ | डोरी | विकिपीडिया से एक अंश. | |
| टिप्पणियाँ/ज्ञान/विकीपेज | मूलपाठ | डोरी | विकिपीडिया पृष्ठ का शीर्षक जहाँ से यह अंश लिया गया है। | |
| टिप्पणियाँ/दीर्घ_उत्तर | मूलपाठ | डोरी | एनोटेशन. | |
| qa_जोड़े | अनुक्रम | एंबिगक्यूए से प्रश्नोत्तर जोड़े जिनका उपयोग अस्पष्टता के लिए किया जाता है। | ||
| qa_जोड़े/संदर्भ | मूलपाठ | डोरी | अतिरिक्त संदर्भ प्रदान किया गया. | |
| qa_जोड़े/प्रश्न | मूलपाठ | डोरी | ||
| qa_जोड़े/लघु_उत्तर | अनुक्रम(पाठ) | (कोई नहीं,) | डोरी | एंबिगक्यूए से संक्षिप्त उत्तरों की सूची। |
| qa_जोड़े/विकीपेज | मूलपाठ | डोरी | विकिपीडिया पृष्ठ का शीर्षक जिसमें अतिरिक्त संदर्भ लिया गया था। | |
| नमूना_आईडी | टेन्सर | int64 | ||
| विकिपीडिया | अनुक्रम | एंबिगक्यूए एनोटेटर्स द्वारा देखे गए विकिपीडिया पृष्ठों की सूची। | ||
| विकिपेज/शीर्षक | मूलपाठ | डोरी | विकिपीडिया पृष्ठ का शीर्षक. | |
| विकिपेज/यूआरएल | मूलपाठ | डोरी | विकिपीडिया पृष्ठ से लिंक करें। |
पर्यवेक्षित कुंजियाँ (
as_superviseddoc देखें):Noneचित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}