- Description :
ASQA est le premier ensemble de données de questions-réponses longues qui se concentre sur des questions factuelles ambiguës. Contrairement aux précédents ensembles de données de réponses longues, chaque question est annotée à la fois avec des réponses longues et des paires question-réponse extractives, auxquelles il faut répondre par le passage généré. Une réponse longue générée sera évaluée en utilisant à la fois la précision ROUGE et QA. Nous avons montré que ces mesures d'évaluation étaient bien corrélées au jugement humain. Dans ce référentiel, nous publions l'ensemble de données ASQA, ainsi que le code d'évaluation : <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>
Page d'accueil : https://github.com/google-research/langue/tree/master/langue/asqa
Code source :
tfds.datasets.asqa.Builder
Versions :
-
1.0.0
: Version initiale. -
2.0.0
(par défaut) : l'ID de l'échantillon passe de int32 (débordant) à int64.
-
Taille du téléchargement :
17.86 MiB
Taille de l'ensemble de données :
14.51 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :
Diviser | Exemples |
---|---|
'dev' | 948 |
'train' | 4 353 |
- Structure des fonctionnalités :
FeaturesDict({
'ambiguous_question': Text(shape=(), dtype=string),
'annotations': Sequence({
'knowledge': Sequence({
'content': Text(shape=(), dtype=string),
'wikipage': Text(shape=(), dtype=string),
}),
'long_answer': Text(shape=(), dtype=string),
}),
'qa_pairs': Sequence({
'context': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'short_answers': Sequence(Text(shape=(), dtype=string)),
'wikipage': Text(shape=(), dtype=string),
}),
'sample_id': int64,
'wikipages': Sequence({
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Type D | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
question_ambiguë | Texte | chaîne | Question sans ambiguïté d'AmbigQA. | |
annotations | Séquence | Réponses longues à la question ambiguë construite par les annotateurs de l'ASQA. | ||
annotations/connaissances | Séquence | Liste de connaissances supplémentaires. | ||
annotations/connaissances/contenu | Texte | chaîne | Un passage de Wikipédia. | |
annotations/connaissances/page wiki | Texte | chaîne | Titre de la page Wikipédia dont le passage est extrait. | |
annotations/longue_réponse | Texte | chaîne | Annotation. | |
qa_pairs | Séquence | Paires de questions et réponses d'AmbigQA qui sont utilisées pour la désambiguïsation. | ||
qa_pairs/contexte | Texte | chaîne | Contexte supplémentaire fourni. | |
qa_pairs/question | Texte | chaîne | ||
qa_pairs/short_answers | Séquence (Texte) | (Aucun,) | chaîne | Liste de réponses courtes d’AmbigQA. |
qa_pairs/page wiki | Texte | chaîne | Titre de la page Wikipédia dont le contexte supplémentaire a été extrait. | |
échantillon_id | Tenseur | int64 | ||
pages wiki | Séquence | Liste des pages Wikipédia visitées par les annotateurs AmbigQA. | ||
pages wiki/titre | Texte | chaîne | Titre de la page Wikipédia. | |
pages wiki/url | Texte | chaîne | Lien vers la page Wikipédia. |
Clés supervisées (Voir doc
as_supervised
) :None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ) :
- Citation :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}