- توضیحات :
LibriSpeech مجموعه ای از تقریباً 1000 ساعت گفتار انگلیسی خوانده شده با نرخ نمونه برداری 16 کیلوهرتز است که توسط Vassil Panayotov با کمک دانیل پووی تهیه شده است. داده ها از کتاب های صوتی خوانده شده از پروژه LibriVox مشتق شده اند و به دقت بخش بندی و تراز شده اند.
توصیه میشود از رمزگشایی صدای تنبل برای خواندن سریعتر و اندازه مجموعه کوچکتر استفاده کنید: - نصب کتابخانه tensorflow_io
: pip install tensorflow-io
- فعال کردن رمزگشایی تنبل: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : http://www.openslr.org/12
کد منبع :
tfds.datasets.librispeech.Builder
حجم دانلود :
57.14 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'dev_clean' | 2703 |
'dev_other' | 2,864 |
'test_clean' | 2620 |
'test_other' | 2939 |
'train_clean100' | 28539 |
'train_clean360' | 104,014 |
'train_other500' | 148688 |
- ساختار ویژگی :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | توضیحات |
---|---|---|---|---|
FeaturesDict | ||||
فصل_id | تانسور | int64 | ||
شناسه | تانسور | رشته | ||
speaker_id | تانسور | int64 | ||
سخنرانی | صوتی | (هیچ،) | int16 | |
متن | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
مراجعه کنید):('speech', 'text')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/default (پیکربندی پیش فرض)
توضیحات پیکربندی : مجموعه داده پیش فرض.
نسخه ها :
-
2.1.1
(پیش فرض): نوع داده گفتار را با dtype=tf.int16 اصلاح کنید. -
2.1.2
: پیکربندی "lazy_decode" را اضافه کنید.
-
حجم مجموعه داده :
304.47 GiB
مثالها ( tfds.as_dataframe ):
librispeech/lazy_decode
توضیحات پیکربندی : مجموعه داده های صوتی خام.
نسخه ها :
-
2.1.1
: نوع داده گفتار را با dtype=tf.int16 اصلاح کنید. -
2.1.2
(پیشفرض): پیکربندی «lazy_decode» را اضافه کنید.
-
حجم مجموعه داده :
59.37 GiB
مثالها ( tfds.as_dataframe ):