- Descrizione :
TriviaqQA è un set di dati sulla comprensione della lettura contenente oltre 650.000 triple di domande-risposte-prove. TriviaqQA include 95.000 coppie di domande-risposte create da appassionati di curiosità e documenti di prova raccolti in modo indipendente, sei in media per domanda, che forniscono una supervisione a distanza di alta qualità per rispondere alle domande.
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : http://nlp.cs.washington.edu/triviaqa/
Codice sorgente :
tfds.datasets.trivia_qa.BuilderVersioni :
-
1.1.0(impostazione predefinita): nessuna nota di rilascio.
-
Struttura delle caratteristiche :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Documentazione delle funzionalità :
| Caratteristica | Classe | Forma | Tipo D | Descrizione |
|---|---|---|---|---|
| CaratteristicheDict | ||||
| risposta | CaratteristicheDict | |||
| risposta/alias | Sequenza(Testo) | (Nessuno,) | corda | |
| risposta/nome_entità_wiki_corrispondente | Testo | corda | ||
| risposta/alias_normalizzati | Sequenza(Testo) | (Nessuno,) | corda | |
| risposta/normalized_matched_wiki_entity_name | Testo | corda | ||
| risposta/valore_normalizzato | Testo | corda | ||
| rispondi/digita | Testo | corda | ||
| risposta/valore | Testo | corda | ||
| entità_pages | Sequenza | |||
| entità_pages/doc_source | Testo | corda | ||
| pagine_entità/nomefile | Testo | corda | ||
| pagine_entità/titolo | Testo | corda | ||
| pagine_entità/contesto_wiki | Testo | corda | ||
| domanda | Testo | corda | ||
| domanda_id | Testo | corda | ||
| fonte_domanda | Testo | corda | ||
| risultati di ricerca | Sequenza | |||
| risultati_ricerca/descrizione | Testo | corda | ||
| risultati_ricerca/nomefile | Testo | corda | ||
| risultati_ricerca/classifica | Tensore | int32 | ||
| risultati_ricerca/contesto_ricerca | Testo | corda | ||
| risultati_ricerca/titolo | Testo | corda | ||
| risultati_ricerca/url | Testo | corda |
Chiavi supervisionate (Vedi
as_superviseddoc ):NoneFigura ( tfds.show_examples ): non supportato.
Citazione :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (configurazione predefinita)
Descrizione della configurazione : coppie domanda-risposta in cui tutti i documenti per una determinata domanda contengono la stringa o le stringhe di risposta. Include contesto da Wikipedia e risultati di ricerca.
Dimensione del download :
2.48 GiBDimensione del set di dati :
14.99 GiBCache automatica ( documentazione ): No
Divisioni :
| Diviso | Esempi |
|---|---|
'test' | 17.210 |
'train' | 138.384 |
'validation' | 18.669 |
- Esempi ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
Descrizione della configurazione : coppie domanda-risposta in cui tutti i documenti per una determinata domanda contengono la stringa o le stringhe di risposta.
Dimensione del download :
2.48 GiBDimensione del set di dati:
196.84 MiBCache automatica ( documentazione ): Sì (test, convalida), solo quando
shuffle_files=False(train)Divisioni :
| Diviso | Esempi |
|---|---|
'test' | 17.210 |
'train' | 138.384 |
'validation' | 18.669 |
- Esempi ( tfds.as_dataframe ):
trivia_qa/non filtrato
Descrizione della configurazione : 110.000 coppie domanda-risposta per QA di dominio aperto in cui non tutti i documenti per una determinata domanda contengono le stringhe di risposta. Ciò rende il set di dati non filtrato più appropriato per il QA in stile IR. Include contesto da Wikipedia e risultati di ricerca.
Dimensione del download :
3.07 GiBDimensione del set di dati:
27.27 GiBCache automatica ( documentazione ): No
Divisioni :
| Diviso | Esempi |
|---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Esempi ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
Descrizione della configurazione : 110.000 coppie domanda-risposta per QA di dominio aperto in cui non tutti i documenti per una determinata domanda contengono le stringhe di risposta. Ciò rende il set di dati non filtrato più appropriato per il QA in stile IR.
Dimensione del download :
603.25 MiBDimensione del set di dati:
119.78 MiBAuto-cache ( documentazione ): Sì
Divisioni :
| Diviso | Esempi |
|---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Esempi ( tfds.as_dataframe ):
- Descrizione :
TriviaqQA è un set di dati sulla comprensione della lettura contenente oltre 650.000 triple di domande-risposte-prove. TriviaqQA include 95.000 coppie di domande-risposte create da appassionati di curiosità e documenti di prova raccolti in modo indipendente, sei in media per domanda, che forniscono una supervisione a distanza di alta qualità per rispondere alle domande.
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : http://nlp.cs.washington.edu/triviaqa/
Codice sorgente :
tfds.datasets.trivia_qa.BuilderVersioni :
-
1.1.0(impostazione predefinita): nessuna nota di rilascio.
-
Struttura delle caratteristiche :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Documentazione delle funzionalità :
| Caratteristica | Classe | Forma | Tipo D | Descrizione |
|---|---|---|---|---|
| CaratteristicheDict | ||||
| risposta | CaratteristicheDict | |||
| risposta/alias | Sequenza(Testo) | (Nessuno,) | corda | |
| risposta/nome_entità_wiki_corrispondente | Testo | corda | ||
| risposta/alias_normalizzati | Sequenza(Testo) | (Nessuno,) | corda | |
| risposta/normalized_matched_wiki_entity_name | Testo | corda | ||
| risposta/valore_normalizzato | Testo | corda | ||
| rispondi/digita | Testo | corda | ||
| risposta/valore | Testo | corda | ||
| entità_pages | Sequenza | |||
| entità_pages/doc_source | Testo | corda | ||
| pagine_entità/nomefile | Testo | corda | ||
| pagine_entità/titolo | Testo | corda | ||
| pagine_entità/contesto_wiki | Testo | corda | ||
| domanda | Testo | corda | ||
| domanda_id | Testo | corda | ||
| fonte_domanda | Testo | corda | ||
| risultati di ricerca | Sequenza | |||
| risultati_ricerca/descrizione | Testo | corda | ||
| risultati_ricerca/nomefile | Testo | corda | ||
| risultati_ricerca/classifica | Tensore | int32 | ||
| risultati_ricerca/contesto_ricerca | Testo | corda | ||
| risultati_ricerca/titolo | Testo | corda | ||
| risultati_ricerca/url | Testo | corda |
Chiavi supervisionate (Vedi
as_superviseddoc ):NoneFigura ( tfds.show_examples ): non supportato.
Citazione :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (configurazione predefinita)
Descrizione della configurazione : coppie domanda-risposta in cui tutti i documenti per una determinata domanda contengono la stringa o le stringhe di risposta. Include contesto da Wikipedia e risultati di ricerca.
Dimensione del download :
2.48 GiBDimensione del set di dati :
14.99 GiBCache automatica ( documentazione ): No
Divisioni :
| Diviso | Esempi |
|---|---|
'test' | 17.210 |
'train' | 138.384 |
'validation' | 18.669 |
- Esempi ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
Descrizione della configurazione : coppie domanda-risposta in cui tutti i documenti per una determinata domanda contengono la stringa o le stringhe di risposta.
Dimensione del download :
2.48 GiBDimensione del set di dati:
196.84 MiBCache automatica ( documentazione ): Sì (test, convalida), solo quando
shuffle_files=False(train)Divisioni :
| Diviso | Esempi |
|---|---|
'test' | 17.210 |
'train' | 138.384 |
'validation' | 18.669 |
- Esempi ( tfds.as_dataframe ):
trivia_qa/non filtrato
Descrizione della configurazione : 110.000 coppie domanda-risposta per QA di dominio aperto in cui non tutti i documenti per una determinata domanda contengono le stringhe di risposta. Ciò rende il set di dati non filtrato più appropriato per il QA in stile IR. Include contesto da Wikipedia e risultati di ricerca.
Dimensione del download :
3.07 GiBDimensione del set di dati:
27.27 GiBCache automatica ( documentazione ): No
Divisioni :
| Diviso | Esempi |
|---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Esempi ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
Descrizione della configurazione : 110.000 coppie domanda-risposta per QA di dominio aperto in cui non tutti i documenti per una determinata domanda contengono le stringhe di risposta. Ciò rende il set di dati non filtrato più appropriato per il QA in stile IR.
Dimensione del download :
603.25 MiBDimensione del set di dati:
119.78 MiBAuto-cache ( documentazione ): Sì
Divisioni :
| Diviso | Esempi |
|---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Esempi ( tfds.as_dataframe ):