- Description :
LibriSpeech est un corpus d'environ 1000 heures de discours anglais lu avec un taux d'échantillonnage de 16 kHz, préparé par Vassil Panayotov avec l'aide de Daniel Povey. Les données sont dérivées des livres audio lus du projet LibriVox et ont été soigneusement segmentées et alignées.
Il est recommandé d'utiliser le décodage audio paresseux pour une lecture plus rapide et une taille d'ensemble de données plus petite : - installez la bibliothèque tensorflow_io
: pip install tensorflow-io
- activez le décodage paresseux : tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
Documentation supplémentaire : Explorer sur les articles avec le code
Page d'accueil : http://www.openslr.org/12
Code source :
tfds.datasets.librispeech.Builder
Taille du téléchargement :
57.14 GiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'dev_clean' | 2 703 |
'dev_other' | 2 864 |
'test_clean' | 2 620 |
'test_other' | 2 939 |
'train_clean100' | 28 539 |
'train_clean360' | 104 014 |
'train_other500' | 148 688 |
- Structure des fonctionnalités :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Type D | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
id_chapitre | Tenseur | int64 | ||
identifiant | Tenseur | chaîne | ||
haut-parleur_id | Tenseur | int64 | ||
discours | Audio | (Aucun,) | int16 | |
texte | Texte | chaîne |
Clés supervisées (Voir doc
as_supervised
) :('speech', 'text')
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/default (configuration par défaut)
Description de la configuration : Ensemble de données par défaut.
Versions :
-
2.1.1
(par défaut) : Correction du type de données vocales avec dtype=tf.int16. -
2.1.2
: Ajouter la configuration 'lazy_decode'.
-
Taille de l'ensemble de données :
304.47 GiB
Exemples ( tfds.as_dataframe ) :
librispeech/lazy_decode
Description de la configuration : Ensemble de données audio brutes.
Versions :
-
2.1.1
: Correction du type de données vocales avec dtype=tf.int16. -
2.1.2
(par défaut) : Ajouter la configuration 'lazy_decode'.
-
Taille de l'ensemble de données :
59.37 GiB
Exemples ( tfds.as_dataframe ) :