- विवरण :
बोले गए शब्दों का एक ऑडियो डेटासेट जिसे कीवर्ड स्पॉटिंग सिस्टम को प्रशिक्षित करने और मूल्यांकन करने में मदद करने के लिए डिज़ाइन किया गया है। इसका प्राथमिक लक्ष्य छोटे मॉडल बनाने और परीक्षण करने का एक तरीका प्रदान करना है जो पृष्ठभूमि शोर या असंबंधित भाषण से यथासंभव कुछ झूठी सकारात्मकता के साथ, दस लक्ष्य शब्दों के सेट से एक शब्द बोले जाने पर पता लगाता है। ध्यान दें कि ट्रेन और सत्यापन सेट में, "अज्ञात" लेबल लक्षित शब्दों या पृष्ठभूमि शोर के लेबल से कहीं अधिक प्रचलित है। रिलीज़ संस्करण से एक अंतर साइलेंट सेगमेंट की हैंडलिंग है। जबकि परीक्षण सेट में मौन खंड नियमित 1 सेकंड की फाइलें हैं, प्रशिक्षण में उन्हें "background_noise" फ़ोल्डर के तहत लंबे खंडों के रूप में प्रदान किया जाता है। यहां हम इन पृष्ठभूमि शोर को 1 सेकंड क्लिप में विभाजित करते हैं, और सत्यापन सेट के लिए फ़ाइलों में से एक को भी रखते हैं।
अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
होमपेज : https://arxiv.org/abs/1804.03209
स्रोत कोड :
tfds.datasets.speech_commands.Builderसंस्करण :
-
0.0.3(डिफ़ॉल्ट): ऑडियो डेटा प्रकार को dtype=tf.int16 के साथ ठीक करें।
-
डाउनलोड आकार :
2.37 GiBडेटासेट का आकार :
8.17 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 4,890 |
'train' | 85,511 |
'validation' | 10,102 |
- फ़ीचर संरचना :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| विशेषताएं डिक्ट | ||||
| ऑडियो | ऑडियो | (कोई भी नहीं,) | int16 | |
| लेबल | क्लासलेबल | int64 |
पर्यवेक्षित कुंजी (
as_supervisedदस्तावेज़ देखें):('audio', 'label')चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@article{speechcommandsv2,
author = { {Warden}, P.},
title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
journal = {ArXiv e-prints},
archivePrefix = "arXiv",
eprint = {1804.03209},
primaryClass = "cs.CL",
keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
year = 2018,
month = apr,
url = {https://arxiv.org/abs/1804.03209},
}