pidato perpustakaan

Keterangan :

LibriSpeech adalah korpus berisi sekitar 1000 jam pidato bahasa Inggris yang dibaca dengan tingkat pengambilan sampel 16 kHz, disiapkan oleh Vassil Panayotov dengan bantuan Daniel Povey. Data berasal dari buku audio yang dibaca dari proyek LibriVox, dan telah disegmentasi dan diselaraskan dengan cermat.

Disarankan untuk menggunakan decoding audio yang lambat untuk pembacaan yang lebih cepat dan ukuran kumpulan data yang lebih kecil: - instal perpustakaan tensorflow_io : pip install tensorflow-io - aktifkan decoding yang lambat: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

Dokumentasi Tambahan : Jelajahi Makalah Dengan Kode
Beranda : http://www.openslr.org/12
Kode sumber : tfds.datasets.librispeech.Builder
Ukuran unduhan : 57.14 GiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'dev_clean'`	2.703
`'dev_other'`	2.864
`'test_clean'`	2.620
`'test_other'`	2.939
`'train_clean100'`	28.539
`'train_clean360'`	104.014
`'train_other500'`	148.688

Struktur fitur :

FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
bab_id	Tensor		int64
pengenal	Tensor		rangkaian
speaker_id	Tensor		int64
pidato	Audio	(Tidak ada,)	int16
teks	Teks		rangkaian

Kunci yang diawasi (Lihat dokumen as_supervised ): ('speech', 'text')
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :

@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

lirispeech/default (konfigurasi default)

Deskripsi konfigurasi : Kumpulan data default.
Versi :
- 2.1.1 (default): Memperbaiki tipe data ucapan dengan dtype=tf.int16.
- 2.1.2 : Tambahkan konfigurasi 'lazy_decode'.
Ukuran kumpulan data : 304.47 GiB
Contoh ( tfds.as_dataframe ):

lirispeech/lazy_decode

Deskripsi konfigurasi : Kumpulan data audio mentah.
Versi :
- 2.1.1 : Memperbaiki tipe data ucapan dengan dtype=tf.int16.
- 2.1.2 (default): Tambahkan konfigurasi 'lazy_decode'.
Ukuran kumpulan data : 59.37 GiB
Contoh ( tfds.as_dataframe ):

pidato perpustakaan Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

lirispeech/default (konfigurasi default)

lirispeech/lazy_decode

pidato perpustakaan