- Keterangan :
LibriSpeech adalah korpus berisi sekitar 1000 jam pidato bahasa Inggris yang dibaca dengan tingkat pengambilan sampel 16 kHz, disiapkan oleh Vassil Panayotov dengan bantuan Daniel Povey. Data berasal dari buku audio yang dibaca dari proyek LibriVox, dan telah disegmentasi dan diselaraskan dengan cermat.
Disarankan untuk menggunakan decoding audio yang lambat untuk pembacaan yang lebih cepat dan ukuran kumpulan data yang lebih kecil: - instal perpustakaan tensorflow_io
: pip install tensorflow-io
- aktifkan decoding yang lambat: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
Dokumentasi Tambahan : Jelajahi Makalah Dengan Kode
Beranda : http://www.openslr.org/12
Kode sumber :
tfds.datasets.librispeech.Builder
Ukuran unduhan :
57.14 GiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'dev_clean' | 2.703 |
'dev_other' | 2.864 |
'test_clean' | 2.620 |
'test_other' | 2.939 |
'train_clean100' | 28.539 |
'train_clean360' | 104.014 |
'train_other500' | 148.688 |
- Struktur fitur :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
bab_id | Tensor | int64 | ||
pengenal | Tensor | rangkaian | ||
speaker_id | Tensor | int64 | ||
pidato | Audio | (Tidak ada,) | int16 | |
teks | Teks | rangkaian |
Kunci yang diawasi (Lihat dokumen
as_supervised
):('speech', 'text')
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
lirispeech/default (konfigurasi default)
Deskripsi konfigurasi : Kumpulan data default.
Versi :
-
2.1.1
(default): Memperbaiki tipe data ucapan dengan dtype=tf.int16. -
2.1.2
: Tambahkan konfigurasi 'lazy_decode'.
-
Ukuran kumpulan data :
304.47 GiB
Contoh ( tfds.as_dataframe ):
lirispeech/lazy_decode
Deskripsi konfigurasi : Kumpulan data audio mentah.
Versi :
-
2.1.1
: Memperbaiki tipe data ucapan dengan dtype=tf.int16. -
2.1.2
(default): Tambahkan konfigurasi 'lazy_decode'.
-
Ukuran kumpulan data :
59.37 GiB
Contoh ( tfds.as_dataframe ):