- Descrição :
Um conjunto de dados de áudio gratuito de dígitos falados. Pense no MNIST para áudio.
Um conjunto de dados de áudio/fala simples que consiste em gravações de dígitos falados em arquivos wav a 8kHz. As gravações são cortadas para que tenham o mínimo de silêncio no início e no fim.
5 alto-falantes
2.500 gravações (50 de cada dígito por alto-falante)
pronúncias em inglês
Os arquivos são nomeados no seguinte formato: {digitLabel} {speakerName} {index}.wav
Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/Jakobovski/free-spoken-digit-dataset
Código -fonte:
tfds.datasets.spoken_digit.BuilderVersões :
-
1.0.9(padrão): Sem notas de versão.
-
Tamanho do download :
11.42 MiBTamanho do conjunto de dados :
45.68 MiBCache automático ( documentação ): Sim
Divisões :
| Dividir | Exemplos |
|---|---|
'train' | 2.500 |
- Estrutura de recursos :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int64),
'audio/filename': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})
- Documentação do recurso:
| Característica | Classe | Forma | Tipo D | Descrição |
|---|---|---|---|---|
| RecursosDict | ||||
| áudio | áudio | (Nenhum,) | int64 | |
| áudio/nome do arquivo | Texto | corda | ||
| rótulo | ClassLabel | int64 |
Chaves supervisionadas (consulte o documento
as_supervised):('audio', 'label')Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):
- Citação :
@ONLINE {Free Spoken Digit Dataset,
author = "Zohar Jackson",
title = "Spoken_Digit",
year = "2016",
url = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}