- Deskripsi :
TriviaqQA adalah kumpulan data pemahaman bacaan yang berisi lebih dari 650 ribu pertanyaan-jawaban-bukti tiga kali lipat. TriviaqQA mencakup 95 ribu pasangan pertanyaan-jawaban yang ditulis oleh penggemar trivia dan dokumen bukti yang dikumpulkan secara independen, rata-rata enam per pertanyaan, yang memberikan pengawasan jarak jauh berkualitas tinggi untuk menjawab pertanyaan.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : http://nlp.cs.washington.edu/triviaqa/
Kode sumber :
tfds.datasets.trivia_qa.BuilderVersi :
-
1.1.0(default): Tidak ada catatan rilis.
-
Struktur fitur :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Dokumentasi fitur :
| Fitur | Kelas | Membentuk | Dtype | Keterangan |
|---|---|---|---|---|
| fiturDict | ||||
| menjawab | fiturDict | |||
| jawaban/alias | Urutan (Teks) | (Tidak ada,) | rangkaian | |
| answer/matched_wiki_entity_name | Teks | rangkaian | ||
| answer/normalized_aliases | Urutan (Teks) | (Tidak ada,) | rangkaian | |
| jawaban/normalized_matched_wiki_entity_name | Teks | rangkaian | ||
| jawaban/nilai_normalisasi | Teks | rangkaian | ||
| jawaban/jenis | Teks | rangkaian | ||
| jawaban/nilai | Teks | rangkaian | ||
| entitas_halaman | Urutan | |||
| entitas_halaman/doc_source | Teks | rangkaian | ||
| entitas_halaman/nama file | Teks | rangkaian | ||
| entitas_halaman/judul | Teks | rangkaian | ||
| entitas_halaman/wiki_context | Teks | rangkaian | ||
| pertanyaan | Teks | rangkaian | ||
| id_pertanyaan | Teks | rangkaian | ||
| question_source | Teks | rangkaian | ||
| Hasil Pencarian | Urutan | |||
| hasil_penelusuran/deskripsi | Teks | rangkaian | ||
| search_results/namafile | Teks | rangkaian | ||
| hasil_penelusuran/peringkat | Tensor | int32 | ||
| search_results/search_context | Teks | rangkaian | ||
| search_results/title | Teks | rangkaian | ||
| search_results/url | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_superviseddoc ):NoneGambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (konfigurasi default)
Deskripsi konfigurasi : Pasangan pertanyaan-jawaban di mana semua dokumen untuk pertanyaan tertentu berisi string jawaban. Termasuk konteks dari Wikipedia dan hasil pencarian.
Ukuran unduhan :
2.48 GiBUkuran dataset :
14.99 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'test' | 17.210 |
'train' | 138.384 |
'validation' | 18.669 |
- Contoh ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
Deskripsi konfigurasi : Pasangan pertanyaan-jawaban di mana semua dokumen untuk pertanyaan tertentu berisi string jawaban.
Ukuran unduhan :
2.48 GiBUkuran dataset :
196.84 MiBAuto-cached ( dokumentasi ): Ya (test, validasi), Hanya ketika
shuffle_files=False(train)Perpecahan :
| Membelah | Contoh |
|---|---|
'test' | 17.210 |
'train' | 138.384 |
'validation' | 18.669 |
- Contoh ( tfds.as_dataframe ):
trivia_qa/tanpa filter
Deskripsi konfigurasi : 110k pasangan pertanyaan-jawaban untuk QA domain terbuka di mana tidak semua dokumen untuk pertanyaan tertentu berisi string jawaban. Hal ini membuat kumpulan data tanpa filter lebih cocok untuk QA bergaya IR. Termasuk konteks dari Wikipedia dan hasil pencarian.
Ukuran unduhan :
3.07 GiBUkuran dataset :
27.27 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Contoh ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
Deskripsi konfigurasi : 110k pasangan pertanyaan-jawaban untuk QA domain terbuka di mana tidak semua dokumen untuk pertanyaan tertentu berisi string jawaban. Hal ini membuat kumpulan data tanpa filter lebih cocok untuk QA bergaya IR.
Ukuran unduhan :
603.25 MiBUkuran dataset :
119.78 MiBDi-cache otomatis ( dokumentasi ): Ya
Perpecahan :
| Membelah | Contoh |
|---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Contoh ( tfds.as_dataframe ):
- Deskripsi :
TriviaqQA adalah kumpulan data pemahaman bacaan yang berisi lebih dari 650 ribu pertanyaan-jawaban-bukti tiga kali lipat. TriviaqQA mencakup 95 ribu pasangan pertanyaan-jawaban yang ditulis oleh penggemar trivia dan dokumen bukti yang dikumpulkan secara independen, rata-rata enam per pertanyaan, yang memberikan pengawasan jarak jauh berkualitas tinggi untuk menjawab pertanyaan.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : http://nlp.cs.washington.edu/triviaqa/
Kode sumber :
tfds.datasets.trivia_qa.BuilderVersi :
-
1.1.0(default): Tidak ada catatan rilis.
-
Struktur fitur :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Dokumentasi fitur :
| Fitur | Kelas | Membentuk | Dtype | Keterangan |
|---|---|---|---|---|
| fiturDict | ||||
| menjawab | fiturDict | |||
| jawaban/alias | Urutan (Teks) | (Tidak ada,) | rangkaian | |
| answer/matched_wiki_entity_name | Teks | rangkaian | ||
| answer/normalized_aliases | Urutan (Teks) | (Tidak ada,) | rangkaian | |
| jawaban/normalized_matched_wiki_entity_name | Teks | rangkaian | ||
| jawaban/nilai_normalisasi | Teks | rangkaian | ||
| jawaban/jenis | Teks | rangkaian | ||
| jawaban/nilai | Teks | rangkaian | ||
| entitas_halaman | Urutan | |||
| entitas_halaman/doc_source | Teks | rangkaian | ||
| entitas_halaman/nama file | Teks | rangkaian | ||
| entitas_halaman/judul | Teks | rangkaian | ||
| entitas_halaman/wiki_context | Teks | rangkaian | ||
| pertanyaan | Teks | rangkaian | ||
| id_pertanyaan | Teks | rangkaian | ||
| question_source | Teks | rangkaian | ||
| Hasil Pencarian | Urutan | |||
| hasil_penelusuran/deskripsi | Teks | rangkaian | ||
| search_results/namafile | Teks | rangkaian | ||
| hasil_penelusuran/peringkat | Tensor | int32 | ||
| search_results/search_context | Teks | rangkaian | ||
| search_results/title | Teks | rangkaian | ||
| search_results/url | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_superviseddoc ):NoneGambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (konfigurasi default)
Deskripsi konfigurasi : Pasangan pertanyaan-jawaban di mana semua dokumen untuk pertanyaan tertentu berisi string jawaban. Termasuk konteks dari Wikipedia dan hasil pencarian.
Ukuran unduhan :
2.48 GiBUkuran dataset :
14.99 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'test' | 17.210 |
'train' | 138.384 |
'validation' | 18.669 |
- Contoh ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
Deskripsi konfigurasi : Pasangan pertanyaan-jawaban di mana semua dokumen untuk pertanyaan tertentu berisi string jawaban.
Ukuran unduhan :
2.48 GiBUkuran dataset :
196.84 MiBAuto-cached ( dokumentasi ): Ya (test, validasi), Hanya ketika
shuffle_files=False(train)Perpecahan :
| Membelah | Contoh |
|---|---|
'test' | 17.210 |
'train' | 138.384 |
'validation' | 18.669 |
- Contoh ( tfds.as_dataframe ):
trivia_qa/tanpa filter
Deskripsi konfigurasi : 110k pasangan pertanyaan-jawaban untuk QA domain terbuka di mana tidak semua dokumen untuk pertanyaan tertentu berisi string jawaban. Hal ini membuat kumpulan data tanpa filter lebih cocok untuk QA bergaya IR. Termasuk konteks dari Wikipedia dan hasil pencarian.
Ukuran unduhan :
3.07 GiBUkuran dataset :
27.27 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Contoh ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
Deskripsi konfigurasi : 110k pasangan pertanyaan-jawaban untuk QA domain terbuka di mana tidak semua dokumen untuk pertanyaan tertentu berisi string jawaban. Hal ini membuat kumpulan data tanpa filter lebih cocok untuk QA bergaya IR.
Ukuran unduhan :
603.25 MiBUkuran dataset :
119.78 MiBDi-cache otomatis ( dokumentasi ): Ya
Perpecahan :
| Membelah | Contoh |
|---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Contoh ( tfds.as_dataframe ):