- Descrizione :
LibriSpeech è un corpus di circa 1000 ore di parlato in inglese letto con una frequenza di campionamento di 16 kHz, preparato da Vassil Panayotov con l'assistenza di Daniel Povey. I dati derivano dagli audiolibri letti dal progetto LibriVox e sono stati accuratamente segmentati e allineati.
Si consiglia di utilizzare la decodifica audio lenta per una lettura più rapida e dimensioni del set di dati più piccole: - installa la libreria tensorflow_io
: pip install tensorflow-io
- abilita la decodifica lazy: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
Documentazione aggiuntiva : esplora documenti con codice
Pagina iniziale : http://www.openslr.org/12
Codice sorgente :
tfds.datasets.librispeech.Builder
Dimensione download :
57.14 GiB
Memorizzazione nella cache automatica ( documentazione ): No
Divide :
Diviso | Esempi |
---|---|
'dev_clean' | 2.703 |
'dev_other' | 2.864 |
'test_clean' | 2.620 |
'test_other' | 2.939 |
'train_clean100' | 28.539 |
'train_clean360' | 104.014 |
'train_other500' | 148.688 |
- Struttura delle caratteristiche :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
capitolo_id | Tensore | int64 | ||
id | Tensore | corda | ||
altoparlante_id | Tensore | int64 | ||
discorso | Audio | (Nessuno,) | int16 | |
testo | Testo | corda |
Chiavi supervisionate (vedi
as_supervised
doc ):('speech', 'text')
Figura ( tfds.show_examples ): non supportato.
Citazione :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/default (configurazione predefinita)
Descrizione configurazione : set di dati predefinito.
Versioni :
-
2.1.1
(impostazione predefinita): correggi il tipo di dati vocali con dtype=tf.int16. -
2.1.2
: Aggiunta la configurazione 'lazy_decode'.
-
Dimensione del set di dati :
304.47 GiB
Esempi ( tfds.as_dataframe ):
librispeech/lazy_decode
Descrizione della configurazione : set di dati audio grezzi.
Versioni :
-
2.1.1
: Correzione del tipo di dati vocali con dtype=tf.int16. -
2.1.2
(impostazione predefinita): aggiungi la configurazione 'lazy_decode'.
-
Dimensione del set di dati :
59.37 GiB
Esempi ( tfds.as_dataframe ):