- Descripción :
TriviaqQA es un conjunto de datos de comprensión de lectura que contiene más de 650 000 triples de preguntas, respuestas y pruebas. TriviaqQA incluye 95 000 pares de preguntas y respuestas creados por entusiastas de las trivias y documentos de evidencia recopilados de forma independiente, seis por pregunta en promedio, que brindan supervisión a distancia de alta calidad para responder las preguntas.
Documentación adicional : Explore en Papers With Code
Página de inicio: http://nlp.cs.washington.edu/triviaqa/
Código fuente :
tfds.datasets.trivia_qa.BuilderVersiones :
-
1.1.0(predeterminado): Sin notas de la versión.
-
Estructura de características :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Documentación de características :
| Característica | Clase | Forma | Tipo D | Descripción |
|---|---|---|---|---|
| CaracterísticasDict | ||||
| respuesta | CaracterísticasDict | |||
| respuesta/alias | Secuencia (Texto) | (Ninguno,) | cadena | |
| respuesta/matched_wiki_entity_name | Texto | cadena | ||
| respuesta/normalized_aliases | Secuencia (Texto) | (Ninguno,) | cadena | |
| respuesta/normalized_matched_wiki_entity_name | Texto | cadena | ||
| respuesta/valor_normalizado | Texto | cadena | ||
| responder/escribir | Texto | cadena | ||
| respuesta/valor | Texto | cadena | ||
| entidades_paginas | Secuencia | |||
| entidad_páginas/doc_fuente | Texto | cadena | ||
| entidad_páginas/nombre de archivo | Texto | cadena | ||
| entidad_páginas/título | Texto | cadena | ||
| entidad_páginas/wiki_contexto | Texto | cadena | ||
| pregunta | Texto | cadena | ||
| pregunta_id | Texto | cadena | ||
| pregunta_origen | Texto | cadena | ||
| Resultados de la búsqueda | Secuencia | |||
| resultados_de_búsqueda/descripción | Texto | cadena | ||
| resultados_de_búsqueda/nombre de archivo | Texto | cadena | ||
| resultados_de_búsqueda/clasificación | Tensor | int32 | ||
| resultados_de_búsqueda/contexto_de_búsqueda | Texto | cadena | ||
| resultados_de_búsqueda/título | Texto | cadena | ||
| resultados_de_búsqueda/url | Texto | cadena |
Claves supervisadas (Ver
as_superviseddoc ):NoneFigura ( tfds.show_examples ): no compatible.
Cita :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (configuración predeterminada)
Descripción de la configuración : Pares de pregunta-respuesta donde todos los documentos para una pregunta determinada contienen la(s) cadena(s) de respuesta. Incluye contexto de Wikipedia y resultados de búsqueda.
Tamaño de descarga :
2.48 GiBTamaño del conjunto de datos :
14.99 GiBAlmacenamiento automático en caché ( documentación ): No
Divisiones :
| Dividir | Ejemplos |
|---|---|
'test' | 17,210 |
'train' | 138,384 |
'validation' | 18,669 |
- Ejemplos ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
Descripción de la configuración : Pares de pregunta-respuesta donde todos los documentos para una pregunta determinada contienen la(s) cadena(s) de respuesta.
Tamaño de descarga :
2.48 GiBTamaño del conjunto de datos :
196.84 MiBAlmacenamiento automático en caché ( documentación ): Sí (prueba, validación), solo cuando
shuffle_files=False(tren)Divisiones :
| Dividir | Ejemplos |
|---|---|
'test' | 17,210 |
'train' | 138,384 |
'validation' | 18,669 |
- Ejemplos ( tfds.as_dataframe ):
trivia_qa/sin filtrar
Descripción de la configuración : 110 000 pares de preguntas y respuestas para control de calidad de dominio abierto donde no todos los documentos para una pregunta dada contienen las cadenas de respuesta. Esto hace que el conjunto de datos sin filtrar sea más apropiado para el control de calidad de estilo IR. Incluye contexto de Wikipedia y resultados de búsqueda.
Tamaño de descarga :
3.07 GiBTamaño del conjunto de datos :
27.27 GiBAlmacenamiento automático en caché ( documentación ): No
Divisiones :
| Dividir | Ejemplos |
|---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- Ejemplos ( tfds.as_dataframe ):
trivia_qa/sin filtrar.nocontext
Descripción de la configuración : 110 000 pares de preguntas y respuestas para control de calidad de dominio abierto donde no todos los documentos para una pregunta dada contienen las cadenas de respuesta. Esto hace que el conjunto de datos sin filtrar sea más apropiado para el control de calidad de estilo IR.
Tamaño de la descarga :
603.25 MiBTamaño del conjunto de datos :
119.78 MiBAlmacenamiento automático en caché ( documentación ): Sí
Divisiones :
| Dividir | Ejemplos |
|---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- Ejemplos ( tfds.as_dataframe ):
- Descripción :
TriviaqQA es un conjunto de datos de comprensión de lectura que contiene más de 650 000 triples de preguntas, respuestas y pruebas. TriviaqQA incluye 95 000 pares de preguntas y respuestas creados por entusiastas de las trivias y documentos de evidencia recopilados de forma independiente, seis por pregunta en promedio, que brindan supervisión a distancia de alta calidad para responder las preguntas.
Documentación adicional : Explore en Papers With Code
Página de inicio: http://nlp.cs.washington.edu/triviaqa/
Código fuente :
tfds.datasets.trivia_qa.BuilderVersiones :
-
1.1.0(predeterminado): Sin notas de la versión.
-
Estructura de características :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Documentación de características :
| Característica | Clase | Forma | Tipo D | Descripción |
|---|---|---|---|---|
| CaracterísticasDict | ||||
| respuesta | CaracterísticasDict | |||
| respuesta/alias | Secuencia (Texto) | (Ninguno,) | cadena | |
| respuesta/matched_wiki_entity_name | Texto | cadena | ||
| respuesta/normalized_aliases | Secuencia (Texto) | (Ninguno,) | cadena | |
| respuesta/normalized_matched_wiki_entity_name | Texto | cadena | ||
| respuesta/valor_normalizado | Texto | cadena | ||
| responder/escribir | Texto | cadena | ||
| respuesta/valor | Texto | cadena | ||
| entidades_paginas | Secuencia | |||
| entidad_páginas/doc_fuente | Texto | cadena | ||
| entidad_páginas/nombre de archivo | Texto | cadena | ||
| entidad_páginas/título | Texto | cadena | ||
| entidad_páginas/wiki_contexto | Texto | cadena | ||
| pregunta | Texto | cadena | ||
| pregunta_id | Texto | cadena | ||
| pregunta_origen | Texto | cadena | ||
| Resultados de la búsqueda | Secuencia | |||
| resultados_de_búsqueda/descripción | Texto | cadena | ||
| resultados_de_búsqueda/nombre de archivo | Texto | cadena | ||
| resultados_de_búsqueda/clasificación | Tensor | int32 | ||
| resultados_de_búsqueda/contexto_de_búsqueda | Texto | cadena | ||
| resultados_de_búsqueda/título | Texto | cadena | ||
| resultados_de_búsqueda/url | Texto | cadena |
Claves supervisadas (Ver
as_superviseddoc ):NoneFigura ( tfds.show_examples ): no compatible.
Cita :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (configuración predeterminada)
Descripción de la configuración : Pares de pregunta-respuesta donde todos los documentos para una pregunta determinada contienen la(s) cadena(s) de respuesta. Incluye contexto de Wikipedia y resultados de búsqueda.
Tamaño de descarga :
2.48 GiBTamaño del conjunto de datos :
14.99 GiBAlmacenamiento automático en caché ( documentación ): No
Divisiones :
| Dividir | Ejemplos |
|---|---|
'test' | 17,210 |
'train' | 138,384 |
'validation' | 18,669 |
- Ejemplos ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
Descripción de la configuración : Pares de pregunta-respuesta donde todos los documentos para una pregunta determinada contienen la(s) cadena(s) de respuesta.
Tamaño de descarga :
2.48 GiBTamaño del conjunto de datos :
196.84 MiBAlmacenamiento automático en caché ( documentación ): Sí (prueba, validación), solo cuando
shuffle_files=False(tren)Divisiones :
| Dividir | Ejemplos |
|---|---|
'test' | 17,210 |
'train' | 138,384 |
'validation' | 18,669 |
- Ejemplos ( tfds.as_dataframe ):
trivia_qa/sin filtrar
Descripción de la configuración : 110 000 pares de preguntas y respuestas para control de calidad de dominio abierto donde no todos los documentos para una pregunta dada contienen las cadenas de respuesta. Esto hace que el conjunto de datos sin filtrar sea más apropiado para el control de calidad de estilo IR. Incluye contexto de Wikipedia y resultados de búsqueda.
Tamaño de descarga :
3.07 GiBTamaño del conjunto de datos :
27.27 GiBAlmacenamiento automático en caché ( documentación ): No
Divisiones :
| Dividir | Ejemplos |
|---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- Ejemplos ( tfds.as_dataframe ):
trivia_qa/sin filtrar.nocontext
Descripción de la configuración : 110 000 pares de preguntas y respuestas para control de calidad de dominio abierto donde no todos los documentos para una pregunta dada contienen las cadenas de respuesta. Esto hace que el conjunto de datos sin filtrar sea más apropiado para el control de calidad de estilo IR.
Tamaño de la descarga :
603.25 MiBTamaño del conjunto de datos :
119.78 MiBAlmacenamiento automático en caché ( documentación ): Sí
Divisiones :
| Dividir | Ejemplos |
|---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- Ejemplos ( tfds.as_dataframe ):