- Descripción :
ASQA es el primer conjunto de datos de respuesta a preguntas de formato largo que se centra en preguntas factoides ambiguas. A diferencia de los conjuntos de datos de respuestas largas anteriores, cada pregunta está anotada con respuestas largas y pares de preguntas y respuestas extractivas, que deben responderse mediante el pasaje generado. Una respuesta larga generada se evaluará utilizando la precisión de ROUGE y QA. Demostramos que estas métricas de evaluación se correlacionaban bien con el juicio humano. En este repositorio publicamos el conjunto de datos ASQA, junto con el código de evaluación: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>
Página de inicio : https://github.com/google-research/language/tree/master/language/asqa
Código fuente :
tfds.datasets.asqa.Builder
Versiones :
-
1.0.0
: versión inicial. -
2.0.0
(predeterminado) : el ID de muestra va de int32 (desbordante) a int64.
-
Tamaño de descarga :
17.86 MiB
Tamaño del conjunto de datos :
14.51 MiB
Almacenamiento en caché automático ( documentación ): Sí
Divisiones :
Dividir | Ejemplos |
---|---|
'dev' | 948 |
'train' | 4.353 |
- Estructura de características :
FeaturesDict({
'ambiguous_question': Text(shape=(), dtype=string),
'annotations': Sequence({
'knowledge': Sequence({
'content': Text(shape=(), dtype=string),
'wikipage': Text(shape=(), dtype=string),
}),
'long_answer': Text(shape=(), dtype=string),
}),
'qa_pairs': Sequence({
'context': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'short_answers': Sequence(Text(shape=(), dtype=string)),
'wikipage': Text(shape=(), dtype=string),
}),
'sample_id': int64,
'wikipages': Sequence({
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Documentación de funciones :
Característica | Clase | Forma | tipo D | Descripción |
---|---|---|---|---|
FuncionesDict | ||||
pregunta_ambigua | Texto | cadena | Pregunta desambiguada de AmbigQA. | |
anotaciones | Secuencia | Respuestas extensas a la pregunta ambigua construida por los anotadores de ASQA. | ||
anotaciones/conocimiento | Secuencia | Lista de conocimientos adicionales. | ||
anotaciones/conocimiento/contenido | Texto | cadena | Un pasaje de Wikipedia. | |
anotaciones/conocimiento/wikipágina | Texto | cadena | Título de la página de Wikipedia de la que se tomó el pasaje. | |
anotaciones/respuesta_larga | Texto | cadena | Anotación. | |
qa_pares | Secuencia | Pares de preguntas y respuestas de AmbigQA que se utilizan para desambiguación. | ||
qa_pairs/contexto | Texto | cadena | Se proporciona contexto adicional. | |
qa_pairs/pregunta | Texto | cadena | ||
pares_qa/respuestas_cortas | Secuencia (Texto) | (Ninguno,) | cadena | Lista de respuestas breves de AmbigQA. |
qa_pairs/wikipage | Texto | cadena | Título de la página de Wikipedia de la que se tomó el contexto adicional. | |
id_muestra | Tensor | int64 | ||
páginas wiki | Secuencia | Lista de páginas de Wikipedia visitadas por anotadores de AmbigQA. | ||
páginas wiki/título | Texto | cadena | Título de la página de Wikipedia. | |
páginas wiki/url | Texto | cadena | Enlace a la página de Wikipedia. |
Claves supervisadas (ver documento
as_supervised
):None
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}