librispeech

  • Descrizione :

LibriSpeech è un corpus di circa 1000 ore di parlato in inglese letto con una frequenza di campionamento di 16 kHz, preparato da Vassil Panayotov con l'assistenza di Daniel Povey. I dati derivano dagli audiolibri letti dal progetto LibriVox e sono stati accuratamente segmentati e allineati.

Si consiglia di utilizzare la decodifica audio lenta per una lettura più rapida e dimensioni del set di dati più piccole: - installa la libreria tensorflow_io : pip install tensorflow-io - abilita la decodifica lazy: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

Diviso Esempi
'dev_clean' 2.703
'dev_other' 2.864
'test_clean' 2.620
'test_other' 2.939
'train_clean100' 28.539
'train_clean360' 104.014
'train_other500' 148.688
  • Struttura delle caratteristiche :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
capitolo_id Tensore int64
id Tensore corda
altoparlante_id Tensore int64
discorso Audio (Nessuno,) int16
testo Testo corda
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/default (configurazione predefinita)

  • Descrizione configurazione : set di dati predefinito.

  • Versioni :

    • 2.1.1 (impostazione predefinita): correggi il tipo di dati vocali con dtype=tf.int16.
    • 2.1.2 : Aggiunta la configurazione 'lazy_decode'.
  • Dimensione del set di dati : 304.47 GiB

  • Esempi ( tfds.as_dataframe ):

librispeech/lazy_decode

  • Descrizione della configurazione : set di dati audio grezzi.

  • Versioni :

    • 2.1.1 : Correzione del tipo di dati vocali con dtype=tf.int16.
    • 2.1.2 (impostazione predefinita): aggiungi la configurazione 'lazy_decode'.
  • Dimensione del set di dati : 59.37 GiB

  • Esempi ( tfds.as_dataframe ):