- Deskripsi :
Stanford Question Answering Dataset (SQuAD) adalah kumpulan data pemahaman bacaan, terdiri dari pertanyaan yang diajukan oleh crowdworker pada serangkaian artikel Wikipedia, di mana jawaban untuk setiap pertanyaan adalah segmen teks, atau rentang, dari bagian bacaan yang sesuai, atau pertanyaan mungkin tidak terjawab.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Kode sumber :
tfds.datasets.squad.BuilderVersi :
-
3.0.0(default): Memperbaiki masalah dengan sejumlah kecil contoh (19) di mana rentang jawaban tidak selaras karena penghapusan spasi konteks.
-
Kunci yang diawasi (Lihat
as_superviseddoc ):NoneGambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@article{2016arXiv160605250R,
author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
Konstantin and {Liang}, Percy},
title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
journal = {arXiv e-prints},
year = 2016,
eid = {arXiv:1606.05250},
pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
eprint = {1606.05250},
}
skuad/v1.1 (konfigurasi default)
Deskripsi konfigurasi : SQUAD versi 1.1.0
Ukuran unduhan :
33.51 MiBUkuran dataset :
94.06 MiBDi-cache otomatis ( dokumentasi ): Ya
Perpecahan :
| Membelah | Contoh |
|---|---|
'train' | 87.599 |
'validation' | 10.570 |
- Struktur fitur :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
| Fitur | Kelas | Membentuk | Dtype | Keterangan |
|---|---|---|---|---|
| fiturDict | ||||
| jawaban | Urutan | |||
| jawaban/jawaban_mulai | Tensor | int32 | ||
| jawaban/teks | Teks | rangkaian | ||
| konteks | Teks | rangkaian | ||
| Indo | Tensor | rangkaian | ||
| pertanyaan | Teks | rangkaian | ||
| judul | Teks | rangkaian |
- Contoh ( tfds.as_dataframe ):
skuad/v2.0
Deskripsi konfigurasi : SQUAD versi 2.0.0
Ukuran unduhan :
44.34 MiBUkuran dataset :
148.54 MiBAuto-cached ( dokumentasi ): Ya (validasi), Hanya ketika
shuffle_files=False(train)Perpecahan :
| Membelah | Contoh |
|---|---|
'train' | 130.319 |
'validation' | 11.873 |
- Struktur fitur :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'is_impossible': bool,
'plausible_answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
| Fitur | Kelas | Membentuk | Dtype | Keterangan |
|---|---|---|---|---|
| fiturDict | ||||
| jawaban | Urutan | |||
| jawaban/jawaban_mulai | Tensor | int32 | ||
| jawaban/teks | Teks | rangkaian | ||
| konteks | Teks | rangkaian | ||
| Indo | Tensor | rangkaian | ||
| adalah_tidak mungkin | Tensor | bool | ||
| plausible_answers | Urutan | |||
| plausible_answers/answer_start | Tensor | int32 | ||
| plausible_answers/text | Teks | rangkaian | ||
| pertanyaan | Teks | rangkaian | ||
| judul | Teks | rangkaian |
- Contoh ( tfds.as_dataframe ):