کتاب گفتار

  • توضیحات :

LibriSpeech مجموعه ای از تقریباً 1000 ساعت گفتار انگلیسی خوانده شده با نرخ نمونه برداری 16 کیلوهرتز است که توسط Vassil Panayotov با کمک دانیل پووی تهیه شده است. داده ها از کتاب های صوتی خوانده شده از پروژه LibriVox مشتق شده اند و به دقت بخش بندی و تراز شده اند.

توصیه می‌شود از رمزگشایی صدای تنبل برای خواندن سریع‌تر و اندازه مجموعه کوچک‌تر استفاده کنید: - نصب کتابخانه tensorflow_io : pip install tensorflow-io - فعال کردن رمزگشایی تنبل: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

تقسیم کنید نمونه ها
'dev_clean' 2703
'dev_other' 2,864
'test_clean' 2620
'test_other' 2939
'train_clean100' 28539
'train_clean360' 104,014
'train_other500' 148688
  • ساختار ویژگی :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D توضیحات
FeaturesDict
فصل_id تانسور int64
شناسه تانسور رشته
speaker_id تانسور int64
سخنرانی صوتی (هیچ،) int16
متن متن رشته
  • کلیدهای نظارت شده (به as_supervised مراجعه کنید): ('speech', 'text')

  • شکل ( tfds.show_examples ): پشتیبانی نمی شود.

  • نقل قول :

@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/default (پیکربندی پیش فرض)

  • توضیحات پیکربندی : مجموعه داده پیش فرض.

  • نسخه ها :

    • 2.1.1 (پیش فرض): نوع داده گفتار را با dtype=tf.int16 اصلاح کنید.
    • 2.1.2 : پیکربندی "lazy_decode" را اضافه کنید.
  • حجم مجموعه داده : 304.47 GiB

  • مثال‌ها ( tfds.as_dataframe ):

librispeech/lazy_decode

  • توضیحات پیکربندی : مجموعه داده های صوتی خام.

  • نسخه ها :

    • 2.1.1 : نوع داده گفتار را با dtype=tf.int16 اصلاح کنید.
    • 2.1.2 (پیش‌فرض): پیکربندی «lazy_decode» را اضافه کنید.
  • حجم مجموعه داده : 59.37 GiB

  • مثال‌ها ( tfds.as_dataframe ):