- توضیحات :
مجموعه داده در مقیاس بزرگ برای شناسایی گوینده. این داده ها از بیش از 1251 سخنران با بیش از 150 هزار نمونه جمع آوری شده است. این نسخه شامل بخش صوتی مجموعه داده voxceleb1.1 است.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html
کد منبع :
tfds.audio.Voxcelebنسخه ها :
-
1.2.1(پیش فرض): فیلد youtube_id را اضافه کنید
-
حجم دانلود :
4.68 MiBحجم مجموعه داده :
107.98 GiBدستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir(پیشفرض~/tensorflow_datasets/downloads/manual/):
manual_dir باید حاوی فایل vox_dev_wav.zip باشد. دستورالعمل دانلود این فایل در http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html این مجموعه داده نیاز به ثبت نام دارد.ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
| شکاف | مثال ها |
|---|---|
'test' | 7,972 |
'train' | 134000 |
'validation' | 6670 |
- ساختار ویژگی :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int64),
'label': ClassLabel(shape=(), dtype=int64, num_classes=1252),
'youtube_id': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
| ویژگی | کلاس | شکل | نوع D | شرح |
|---|---|---|---|---|
| FeaturesDict | ||||
| سمعی | سمعی | (هیچ یک،) | int64 | |
| برچسب | ClassLabel | int64 | ||
| youtube_id | متن | رشته |
کلیدهای نظارت شده (مشاهده
as_superviseddoc ):('audio', 'label')شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@InProceedings{Nagrani17,
author = "Nagrani, A. and Chung, J.~S. and Zisserman, A.",
title = "VoxCeleb: a large-scale speaker identification dataset",
booktitle = "INTERSPEECH",
year = "2017",
}