- Descrizione :
Un set di dati audio di parole pronunciate progettato per aiutare a formare e valutare i sistemi di individuazione delle parole chiave. Il suo obiettivo principale è fornire un modo per costruire e testare piccoli modelli che rilevano quando viene pronunciata una singola parola, da un insieme di dieci parole target, con il minor numero possibile di falsi positivi da rumore di fondo o discorsi non correlati. Si noti che nel treno e nel set di convalida, l'etichetta "sconosciuto" è molto più prevalente delle etichette delle parole target o del rumore di fondo. Una differenza rispetto alla versione di rilascio è la gestione dei segmenti silenziosi. Mentre nel set di test i segmenti di silenzio sono normali file da 1 secondo, nel training sono forniti come segmenti lunghi nella cartella "background_noise". Qui dividiamo questi rumori di fondo in clip da 1 secondo e conserviamo anche uno dei file per il set di convalida.
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://arxiv.org/abs/1804.03209
Codice sorgente :
tfds.datasets.speech_commands.BuilderVersioni :
-
0.0.3(predefinito): corregge il tipo di dati audio con dtype=tf.int16.
-
Dimensioni del download :
2.37 GiBDimensione del set di dati:
8.17 GiBCache automatica ( documentazione ): No
Divisioni :
| Diviso | Esempi |
|---|---|
'test' | 4.890 |
'train' | 85.511 |
'validation' | 10.102 |
- Struttura delle caratteristiche :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
- Documentazione delle funzionalità :
| Caratteristica | Classe | Forma | Tipo D | Descrizione |
|---|---|---|---|---|
| CaratteristicheDict | ||||
| Audio | Audio | (Nessuno,) | int16 | |
| etichetta | ClassLabel | int64 |
Chiavi supervisionate (Vedi
as_superviseddoc ):('audio', 'label')Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@article{speechcommandsv2,
author = { {Warden}, P.},
title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
journal = {ArXiv e-prints},
archivePrefix = "arXiv",
eprint = {1804.03209},
primaryClass = "cs.CL",
keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
year = 2018,
month = apr,
url = {https://arxiv.org/abs/1804.03209},
}