- Описание :
Бесплатный аудио набор голосовых данных. Подумайте о MNIST для аудио.
Простой набор аудио/речевых данных, состоящий из записей произнесенных цифр в wav-файлах с частотой 8 кГц. Записи обрезаны таким образом, чтобы в начале и в конце была почти минимальная тишина.
5 динамиков
2500 записей (по 50 каждой цифры на динамик)
Английское произношение
Файлы именуются в следующем формате: {digitLabel} {speakerName} {index}.wav
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/Jakobovski/free-spoken-digit-dataset
Исходный код :
tfds.datasets.spoken_digit.BuilderВерсии :
-
1.0.9(по умолчанию): нет примечаний к выпуску.
-
Размер загрузки :
11.42 MiBРазмер набора данных :
45.68 MiB.Автоматическое кэширование ( документация ): Да
Сплиты :
| Расколоть | Примеры |
|---|---|
'train' | 2500 |
- Структура функции :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int64),
'audio/filename': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})
- Документация по функциям :
| Характерная черта | Класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| ОсобенностиDict | ||||
| аудио | Аудио | (Никто,) | int64 | |
| аудио/имя файла | Текст | нить | ||
| этикетка | Метка класса | int64 |
Контролируемые ключи (см . документ
as_supervised):('audio', 'label')Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@ONLINE {Free Spoken Digit Dataset,
author = "Zohar Jackson",
title = "Spoken_Digit",
year = "2016",
url = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}