- توضیحات :
این یک مجموعه داده گفتاری دامنه عمومی است که شامل 13100 کلیپ صوتی کوتاه از یک سخنران است که در حال خواندن قطعاتی از 7 کتاب غیرداستانی است. برای هر کلیپ رونویسی ارائه شده است. طول کلیپ ها از 1 تا 10 ثانیه متغیر است و طول کلی آنها تقریباً 24 ساعت است.
این متون بین سالهای 1884 تا 1964 منتشر شدهاند و در مالکیت عمومی قرار دارند. این صدا در سال 17-2016 توسط پروژه LibriVox ضبط شده است و همچنین در مالکیت عمومی است.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://keithito.com/LJ-Speech-Dataset/
کد منبع :
tfds.datasets.ljspeech.Builderنسخه ها :
-
1.1.1(پیش فرض): نوع داده گفتار را با dtype=tf.int16 اصلاح کنید.
-
حجم دانلود :
2.56 GiBحجم مجموعه داده :
10.73 GiBذخیره خودکار ( اسناد ): خیر
تقسیم ها :
| شکاف | مثال ها |
|---|---|
'train' | 13100 |
- ساختار ویژگی :
FeaturesDict({
'id': string,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
'text_normalized': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
| ویژگی | کلاس | شکل | نوع D | شرح |
|---|---|---|---|---|
| FeaturesDict | ||||
| شناسه | تانسور | رشته | ||
| سخن، گفتار | سمعی | (هیچ یک،) | int16 | |
| متن | متن | رشته | ||
| text_normalized | متن | رشته |
کلیدهای نظارت شده ( به عنوان_سند
as_supervisedمراجعه کنید):('text_normalized', 'speech')شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@misc{ljspeech17,
author = {Keith Ito},
title = {The LJ Speech Dataset},
howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
year = 2017
}