pidato perpustakaan

  • Keterangan :

LibriSpeech adalah korpus berisi sekitar 1000 jam pidato bahasa Inggris yang dibaca dengan tingkat pengambilan sampel 16 kHz, disiapkan oleh Vassil Panayotov dengan bantuan Daniel Povey. Data berasal dari buku audio yang dibaca dari proyek LibriVox, dan telah disegmentasi dan diselaraskan dengan cermat.

Disarankan untuk menggunakan decoding audio yang lambat untuk pembacaan yang lebih cepat dan ukuran kumpulan data yang lebih kecil: - instal perpustakaan tensorflow_io : pip install tensorflow-io - aktifkan decoding yang lambat: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

Membelah Contoh
'dev_clean' 2.703
'dev_other' 2.864
'test_clean' 2.620
'test_other' 2.939
'train_clean100' 28.539
'train_clean360' 104.014
'train_other500' 148.688
  • Struktur fitur :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Tipe D Keterangan
FiturDict
bab_id Tensor int64
pengenal Tensor rangkaian
speaker_id Tensor int64
pidato Audio (Tidak ada,) int16
teks Teks rangkaian
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

lirispeech/default (konfigurasi default)

  • Deskripsi konfigurasi : Kumpulan data default.

  • Versi :

    • 2.1.1 (default): Memperbaiki tipe data ucapan dengan dtype=tf.int16.
    • 2.1.2 : Tambahkan konfigurasi 'lazy_decode'.
  • Ukuran kumpulan data : 304.47 GiB

  • Contoh ( tfds.as_dataframe ):

lirispeech/lazy_decode

  • Deskripsi konfigurasi : Kumpulan data audio mentah.

  • Versi :

    • 2.1.1 : Memperbaiki tipe data ucapan dengan dtype=tf.int16.
    • 2.1.2 (default): Tambahkan konfigurasi 'lazy_decode'.
  • Ukuran kumpulan data : 59.37 GiB

  • Contoh ( tfds.as_dataframe ):