- Keterangan :
ASQA adalah kumpulan data penjawab pertanyaan bentuk panjang pertama yang berfokus pada pertanyaan fakta yang ambigu. Berbeda dari kumpulan data jawaban jangka panjang sebelumnya, setiap pertanyaan dianotasi dengan jawaban jangka panjang dan pasangan pertanyaan-jawaban ekstraktif, yang harus dapat dijawab berdasarkan bagian yang dihasilkan. Jawaban bentuk panjang yang dihasilkan akan dievaluasi menggunakan akurasi ROUGE dan QA. Kami menunjukkan bahwa metrik evaluasi ini berkorelasi baik dengan penilaian manusia. Dalam repositori ini kami merilis kumpulan data ASQA, bersama dengan kode evaluasi: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>
Beranda : https://github.com/google-research/bahasa/tree/master/bahasa/asqa
Kode sumber :
tfds.datasets.asqa.Builder
Versi :
-
1.0.0
: Rilis awal. -
2.0.0
(default) : Contoh ID berubah dari int32 (meluap) ke int64.
-
Ukuran unduhan :
17.86 MiB
Ukuran kumpulan data :
14.51 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'dev' | 948 |
'train' | 4.353 |
- Struktur fitur :
FeaturesDict({
'ambiguous_question': Text(shape=(), dtype=string),
'annotations': Sequence({
'knowledge': Sequence({
'content': Text(shape=(), dtype=string),
'wikipage': Text(shape=(), dtype=string),
}),
'long_answer': Text(shape=(), dtype=string),
}),
'qa_pairs': Sequence({
'context': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'short_answers': Sequence(Text(shape=(), dtype=string)),
'wikipage': Text(shape=(), dtype=string),
}),
'sample_id': int64,
'wikipages': Sequence({
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
pertanyaan_ambigu | Teks | rangkaian | Pertanyaan yang tidak ambigu dari AmbigQA. | |
anotasi | Urutan | Jawaban jangka panjang atas pertanyaan ambigu yang dibuat oleh anotator ASQA. | ||
anotasi/pengetahuan | Urutan | Daftar potongan pengetahuan tambahan. | ||
anotasi/pengetahuan/konten | Teks | rangkaian | Sebuah bagian dari Wikipedia. | |
anotasi/pengetahuan/halaman wiki | Teks | rangkaian | Judul halaman Wikipedia tempat kutipan itu diambil. | |
anotasi/jawaban_panjang | Teks | rangkaian | Anotasi. | |
qa_pairs | Urutan | Pasangan Tanya Jawab dari AmbigQA yang digunakan untuk disambiguasi. | ||
qa_pairs/context | Teks | rangkaian | Konteks tambahan disediakan. | |
qa_pairs/pertanyaan | Teks | rangkaian | ||
qa_pairs/short_answers | Urutan (Teks) | (Tidak ada,) | rangkaian | Daftar jawaban singkat dari AmbigQA. |
qa_pairs/wikipage | Teks | rangkaian | Judul halaman Wikipedia tempat konteks tambahan diambil. | |
sampel_id | Tensor | int64 | ||
halaman wiki | Urutan | Daftar halaman Wikipedia yang dikunjungi oleh anotator AmbigQA. | ||
halaman wiki/judul | Teks | rangkaian | Judul halaman Wikipedia. | |
halaman wiki/url | Teks | rangkaian | Tautan ke halaman Wikipedia. |
Kunci yang diawasi (Lihat dokumen
as_supervised
):None
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}