librispeech

Descrição :

LibriSpeech é um corpus de aproximadamente 1.000 horas de leitura de fala em inglês com taxa de amostragem de 16 kHz, preparado por Vassil Panayotov com a ajuda de Daniel Povey. Os dados são derivados da leitura de audiolivros do projeto LibriVox e foram cuidadosamente segmentados e alinhados.

É recomendado usar decodificação de áudio lenta para leitura mais rápida e tamanho menor do conjunto de dados: - instale a biblioteca tensorflow_io : pip install tensorflow-io - habilite a decodificação lenta: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

Documentação adicional : Explore artigos com código
Página inicial : http://www.openslr.org/12
Código fonte : tfds.datasets.librispeech.Builder
Tamanho do download : 57.14 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :

Dividir	Exemplos
`'dev_clean'`	2.703
`'dev_other'`	2.864
`'test_clean'`	2.620
`'test_other'`	2.939
`'train_clean100'`	28.539
`'train_clean360'`	104.014
`'train_other500'`	148.688

Estrutura de recursos :

FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})

Documentação de recursos :

Recurso	Aula	Forma	Tipo D
	RecursosDict
capítulo_id	Tensor		int64
eu ia	Tensor		corda
alto-falante_id	Tensor		int64
discurso	Áudio	(Nenhum,)	int16
texto	Texto		corda

Chaves supervisionadas (consulte o documento as_supervised ): ('speech', 'text')
Figura ( tfds.show_examples ): Não suportado.
Citação :

@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/default (configuração padrão)

Descrição da configuração : conjunto de dados padrão.
Versões :
- 2.1.1 (padrão): Corrija o tipo de dados de fala com dtype=tf.int16.
- 2.1.2 : Adicionar configuração 'lazy_decode'.
Tamanho do conjunto de dados : 304.47 GiB
Exemplos ( tfds.as_dataframe ):

librispeech/lazy_decode

Descrição da configuração : conjunto de dados de áudio bruto.
Versões :
- 2.1.1 : Corrija o tipo de dados de fala com dtype=tf.int16.
- 2.1.2 (padrão): Adicione a configuração 'lazy_decode'.
Tamanho do conjunto de dados : 59.37 GiB
Exemplos ( tfds.as_dataframe ):

librispeech Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

librispeech/default (configuração padrão)

librispeech/lazy_decode

librispeech