- Descrição :
LibriSpeech é um corpus de aproximadamente 1.000 horas de leitura de fala em inglês com taxa de amostragem de 16 kHz, preparado por Vassil Panayotov com a ajuda de Daniel Povey. Os dados são derivados da leitura de audiolivros do projeto LibriVox e foram cuidadosamente segmentados e alinhados.
É recomendado usar decodificação de áudio lenta para leitura mais rápida e tamanho menor do conjunto de dados: - instale a biblioteca tensorflow_io
: pip install tensorflow-io
- habilite a decodificação lenta: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
Documentação adicional : Explore artigos com código
Página inicial : http://www.openslr.org/12
Código fonte :
tfds.datasets.librispeech.Builder
Tamanho do download :
57.14 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'dev_clean' | 2.703 |
'dev_other' | 2.864 |
'test_clean' | 2.620 |
'test_other' | 2.939 |
'train_clean100' | 28.539 |
'train_clean360' | 104.014 |
'train_other500' | 148.688 |
- Estrutura de recursos :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Documentação de recursos :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
capítulo_id | Tensor | int64 | ||
eu ia | Tensor | corda | ||
alto-falante_id | Tensor | int64 | ||
discurso | Áudio | (Nenhum,) | int16 | |
texto | Texto | corda |
Chaves supervisionadas (consulte o documento
as_supervised
):('speech', 'text')
Figura ( tfds.show_examples ): Não suportado.
Citação :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/default (configuração padrão)
Descrição da configuração : conjunto de dados padrão.
Versões :
-
2.1.1
(padrão): Corrija o tipo de dados de fala com dtype=tf.int16. -
2.1.2
: Adicionar configuração 'lazy_decode'.
-
Tamanho do conjunto de dados :
304.47 GiB
Exemplos ( tfds.as_dataframe ):
librispeech/lazy_decode
Descrição da configuração : conjunto de dados de áudio bruto.
Versões :
-
2.1.1
: Corrija o tipo de dados de fala com dtype=tf.int16. -
2.1.2
(padrão): Adicione a configuração 'lazy_decode'.
-
Tamanho do conjunto de dados :
59.37 GiB
Exemplos ( tfds.as_dataframe ):