- Tanım :
LibriSpeech, Daniel Povey'in yardımıyla Vassil Panayotov tarafından hazırlanan, 16 kHz örnekleme hızıyla yaklaşık 1000 saatlik okunmuş İngilizce konuşmadan oluşan bir külliyattır. Veriler, LibriVox projesindeki okunan sesli kitaplardan elde edilmiştir ve dikkatli bir şekilde bölümlere ayrılmış ve hizalanmıştır.
Daha hızlı okuma ve daha küçük veri kümesi boyutu için tembel ses kod çözmenin kullanılması önerilir: - tensorflow_io
kütüphanesini kurun: pip install tensorflow-io
- tembel kod çözmeyi etkinleştirin: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
Ana sayfa : http://www.openslr.org/12
Kaynak kodu :
tfds.datasets.librispeech.Builder
İndirme boyutu :
57.14 GiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'dev_clean' | 2.703 |
'dev_other' | 2.864 |
'test_clean' | 2.620 |
'test_other' | 2.939 |
'train_clean100' | 28.539 |
'train_clean360' | 104.014 |
'train_other500' | 148.688 |
- Özellik yapısı :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
bölüm_id | Tensör | int64 | ||
İD | Tensör | sicim | ||
hoparlör_kimliği | Tensör | int64 | ||
konuşma | Ses | (Hiçbiri,) | int16 | |
metin | Metin | sicim |
Denetlenen tuşlar (
as_supervised
belgesine bakın):('speech', 'text')
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/varsayılan (varsayılan yapılandırma)
Yapılandırma açıklaması : Varsayılan veri kümesi.
Sürümler :
-
2.1.1
(varsayılan): Konuşma veri türünü dtype=tf.int16 ile düzeltin. -
2.1.2
: 'lazy_decode' yapılandırmasını ekleyin.
-
Veri kümesi boyutu :
304.47 GiB
Örnekler ( tfds.as_dataframe ):
librispeech/lazy_decode
Yapılandırma açıklaması : Ham ses veri kümesi.
Sürümler :
-
2.1.1
: Konuşma veri türünü dtype=tf.int16 ile düzeltin. -
2.1.2
(varsayılan): 'lazy_decode' yapılandırmasını ekleyin.
-
Veri kümesi boyutu :
59.37 GiB
Örnekler ( tfds.as_dataframe ):