AudioSpectrogram

الطبقة النهائية العامة AudioSpectrogram

ينتج تصورا للبيانات الصوتية مع مرور الوقت.

تعد المخططات الطيفية طريقة قياسية لتمثيل المعلومات الصوتية كسلسلة من شرائح معلومات التردد، شريحة واحدة لكل نافذة زمنية. ومن خلال دمج هذه العناصر معًا في تسلسل، فإنها تشكل بصمة مميزة للصوت مع مرور الوقت.

تتوقع هذه العملية تلقي البيانات الصوتية كمدخلات، مخزنة على شكل عوامات في النطاق من -1 إلى 1، جنبًا إلى جنب مع عرض النافذة في العينات، وخطوة تحدد مدى تحريك النافذة بين الشرائح. ومن هذا فإنه يولد مخرجات ثلاثية الأبعاد. البعد الأول مخصص للقنوات الموجودة في الإدخال، لذا فإن إدخال صوت الاستريو سيكون له اثنان هنا على سبيل المثال. البعد الثاني هو الزمن، بشرائح ترددية متتالية. البعد الثالث له قيمة سعة لكل تردد خلال تلك الشريحة الزمنية.

وهذا يعني أن التخطيط عند تحويله وحفظه كصورة يتم تدويره بمقدار 90 درجة في اتجاه عقارب الساعة من مخطط طيفي نموذجي. يتجه الزمن نحو الأسفل على المحور Y، ويتناقص التردد من اليسار إلى اليمين.

تمثل كل قيمة في النتيجة الجذر التربيعي لمجموع الأجزاء الحقيقية والتخيلية من تحويل فورييه السريع (FFT) في نافذة العينات الحالية. وبهذه الطريقة، يمثل البعد الأدنى قوة كل تردد في النافذة الحالية، ويتم ربط النوافذ المجاورة في البعد التالي.

للحصول على نظرة أكثر وضوحًا وبديهية لما تفعله هذه العملية، يمكنك تشغيل Tensorflow/examples/wav_to_spectrogram لقراءة ملف صوتي وحفظ المخطط الطيفي الناتج كصورة PNG.

فئات متداخلة

فصل AudioSpectrogram.Options السمات الاختيارية لـ AudioSpectrogram

الثوابت

خيط OP_NAME اسم هذه العملية كما هو معروف بواسطة محرك TensorFlow الأساسي

الأساليب العامة

الإخراج <TFloat32>
كإخراج ()
إرجاع المقبض الرمزي للموتر.
مخطط الطيف الصوتي الثابت
إنشاء (نطاق النطاق ، المعامل <TFloat32> الإدخال، حجم النافذة الطويلة، الخطوة الطويلة، الخيارات... الخيارات)
طريقة المصنع لإنشاء فئة تغلف عملية AudioSpectrogram جديدة.
AudioSpectrogram.Options ثابت
الحجم التربيعي (الحجم المنطقي التربيعي)
الإخراج <TFloat32>
مخطط طيفي ()
تمثيل ثلاثي الأبعاد للترددات الصوتية كصورة.

الطرق الموروثة

org.tensorflow.op.RawOp
منطقية نهائية
يساوي (كائن كائن)
كثافة العمليات النهائية
عملية
المرجع ()
قم بإرجاع وحدة الحساب هذه Operation واحدة.
السلسلة النهائية
منطقية
يساوي (كائن arg0)
الدرجة النهائية<?>
الحصول على كلاس ()
كثافة العمليات
رمز التجزئة ()
الفراغ النهائي
إعلام ()
الفراغ النهائي
إعلام الكل ()
خيط
إلى سلسلة ()
الفراغ النهائي
انتظر (طويل arg0، int arg1)
الفراغ النهائي
انتظر (طويل arg0)
الفراغ النهائي
انتظر ()
org.tensorflow.op.Op
بيئة التنفيذ المجردة
بيئى ()
قم بإرجاع بيئة التنفيذ التي تم إنشاء هذه العملية فيها.
عملية مجردة
المرجع ()
قم بإرجاع وحدة الحساب هذه Operation واحدة.
org.tensorflow.Operand
إخراج مجردة <TFloat32>
كإخراج ()
إرجاع المقبض الرمزي للموتر.
مجردة TFloat32
الموتر ()
إرجاع الموتر في هذا المعامل.
الشكل المجرد
شكل ()
تُرجع الشكل (ربما المعروف جزئيًا) للموتر المشار إليه في Output هذا المعامل.
فئة مجردة< TFloat32 >
يكتب ()
إرجاع نوع الموتر لهذا المعامل
org.tensorflow.ndarray.Shaped
كثافة العمليات مجردة
الشكل المجرد
شكل ()
مجردة طويلة
مقاس ()
يحسب ويعيد الحجم الإجمالي لهذه الحاوية بعدد القيم.

الثوابت

السلسلة النهائية الثابتة العامة OP_NAME

اسم هذه العملية كما هو معروف بواسطة محرك TensorFlow الأساسي

القيمة الثابتة: "AudioSpectrogram"

الأساليب العامة

الإخراج العام <TFloat32> asOutput ()

إرجاع المقبض الرمزي للموتر.

المدخلات إلى عمليات TensorFlow هي مخرجات عملية TensorFlow أخرى. يتم استخدام هذه الطريقة للحصول على مقبض رمزي يمثل حساب الإدخال.

إنشاء مخطط صوتي ثابت عام (نطاق النطاق ، المعامل <TFloat32> الإدخال، حجم النافذة الطويلة، الخطوة الطويلة، الخيارات... خيارات)

طريقة المصنع لإنشاء فئة تغلف عملية AudioSpectrogram جديدة.

حدود
نِطَاق النطاق الحالي
مدخل تعويم تمثيل البيانات الصوتية.
بحجم النافذه مدى اتساع نافذة الإدخال في العينات. للحصول على أعلى كفاءة، يجب أن يكون هذا قوة اثنين، ولكن يتم قبول القيم الأخرى.
خطوة إلى أي مدى ينبغي أن يكون مركز نوافذ العينة المجاورة متباعدًا.
خيارات يحمل قيم السمات الاختيارية
عائدات
  • مثيل جديد من AudioSpectrogram

AudioSpectrogram.Options العام الثابت

حدود
حجم مربع سواء لإرجاع الحجم التربيعي أو الحجم فقط. يمكن أن يؤدي استخدام الحجم التربيعي إلى تجنب الحسابات الإضافية.

الإخراج العام <TFloat32> الطيفي ()

تمثيل ثلاثي الأبعاد للترددات الصوتية كصورة.