librisdiscours

  • Description :

LibriSpeech est un corpus d'environ 1000 heures de discours anglais lu avec un taux d'échantillonnage de 16 kHz, préparé par Vassil Panayotov avec l'aide de Daniel Povey. Les données sont dérivées des livres audio lus du projet LibriVox et ont été soigneusement segmentées et alignées.

Il est recommandé d'utiliser le décodage audio paresseux pour une lecture plus rapide et une taille d'ensemble de données plus petite : - installez la bibliothèque tensorflow_io : pip install tensorflow-io - activez le décodage paresseux : tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

Diviser Exemples
'dev_clean' 2 703
'dev_other' 2 864
'test_clean' 2 620
'test_other' 2 939
'train_clean100' 28 539
'train_clean360' 104 014
'train_other500' 148 688
  • Structure des fonctionnalités :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description
FonctionnalitésDict
id_chapitre Tenseur int64
identifiant Tenseur chaîne
haut-parleur_id Tenseur int64
discours Audio (Aucun,) int16
texte Texte chaîne
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/default (configuration par défaut)

  • Description de la configuration : Ensemble de données par défaut.

  • Versions :

    • 2.1.1 (par défaut) : Correction du type de données vocales avec dtype=tf.int16.
    • 2.1.2 : Ajouter la configuration 'lazy_decode'.
  • Taille de l'ensemble de données : 304.47 GiB

  • Exemples ( tfds.as_dataframe ) :

librispeech/lazy_decode

  • Description de la configuration : Ensemble de données audio brutes.

  • Versions :

    • 2.1.1 : Correction du type de données vocales avec dtype=tf.int16.
    • 2.1.2 (par défaut) : Ajouter la configuration 'lazy_decode'.
  • Taille de l'ensemble de données : 59.37 GiB

  • Exemples ( tfds.as_dataframe ) :