- বর্ণনা :
CREMA-D হল আবেগের স্বীকৃতির জন্য একটি অডিও-ভিজ্যুয়াল ডেটা সেট। ডেটা সেটে মুখের এবং কণ্ঠস্বর সংবেদনশীল অভিব্যক্তি রয়েছে যা মৌলিক আবেগীয় অবস্থার (সুখী, দুঃখ, রাগ, ভয়, বিতৃষ্ণা এবং নিরপেক্ষ) একটি পরিসরে উচ্চারিত হয়। বিভিন্ন জাতিগত পটভূমি সহ 91 জন অভিনেতার 7,442 টি ক্লিপ সংগ্রহ করা হয়েছিল। এই রিলিজে মূল অডিও-ভিজ্যুয়াল রেকর্ডিং থেকে শুধুমাত্র অডিও স্ট্রিম রয়েছে। নমুনাগুলি ট্রেন, বৈধতা এবং পরীক্ষার মধ্যে বিভক্ত করা হয়েছে যাতে প্রতিটি স্পিকারের নমুনাগুলি ঠিক একটি বিভক্তের অন্তর্গত হয়।
অতিরিক্ত ডকুমেন্টেশন : কোড সহ কাগজপত্রে অন্বেষণ করুন
সোর্স কোড :
tfds.audio.CremaDসংস্করণ :
-
1.0.0(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
ডাউনলোড সাইজ :
579.25 MiBডেটাসেটের আকার :
1.65 GiBস্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
| বিভক্ত | উদাহরণ |
|---|---|
'test' | 1,556 |
'train' | 5,144 |
'validation' | 738 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int64),
'label': ClassLabel(shape=(), dtype=int64, num_classes=6),
'speaker_id': string,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
| বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
|---|---|---|---|---|
| ফিচারসডিক্ট | ||||
| শ্রুতি | শ্রুতি | (কোনটিই নয়,) | int64 | |
| লেবেল | ক্লাসলেবেল | int64 | ||
| স্পিকার_আইডি | টেনসর | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_superviseddoc ):('audio', 'label')চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@article{cao2014crema,
title={ {CREMA-D}: Crowd-sourced emotional multimodal actors dataset},
author={Cao, Houwei and Cooper, David G and Keutmann, Michael K and Gur, Ruben C and Nenkova, Ani and Verma, Ragini},
journal={IEEE transactions on affective computing},
volume={5},
number={4},
pages={377--390},
year={2014},
publisher={IEEE}
}