- תיאור :
LibriSpeech הוא קורפוס של כ-1000 שעות של דיבור באנגלית קריאה עם קצב דגימה של 16 קילו-הרץ, שהוכן על ידי ואסיל פאנאיוטוב בסיועו של דניאל פובי. הנתונים נגזרים מספרי אודיו שנקראו מפרויקט LibriVox, ופולחו ויושרו בקפידה.
מומלץ להשתמש בפענוח אודיו עצלן לקריאה מהירה יותר וגודל מערך נתונים קטן יותר: - התקן את ספריית tensorflow_io
: pip install tensorflow-io
- אפשר פענוח עצלן: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : http://www.openslr.org/12
קוד מקור :
tfds.datasets.librispeech.Builder
גודל הורדה :
57.14 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'dev_clean' | 2,703 |
'dev_other' | 2,864 |
'test_clean' | 2,620 |
'test_other' | 2,939 |
'train_clean100' | 28,539 |
'train_clean360' | 104,014 |
'train_other500' | 148,688 |
- מבנה תכונה :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מַחלָקָה | צוּרָה | Dtype | תֵאוּר |
---|---|---|---|---|
FeaturesDict | ||||
פרק_מזהה | מוֹתֵחַ | int64 | ||
תְעוּדַת זֶהוּת | מוֹתֵחַ | חוּט | ||
מזהה_רמקול | מוֹתֵחַ | int64 | ||
נְאוּם | שֶׁמַע | (אַף לֹא אֶחָד,) | int16 | |
טֶקסט | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):('speech', 'text')
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/default (תצורת ברירת מחדל)
תיאור תצורה : מערך נתונים ברירת מחדל.
גרסאות :
-
2.1.1
(ברירת מחדל): תקן את סוג נתוני הדיבור באמצעות dtype=tf.int16. -
2.1.2
: הוסף תצורת 'lazy_decode'.
-
גודל מערך נתונים :
304.47 GiB
דוגמאות ( tfds.as_dataframe ):
librispeech/lazy_decode
תיאור תצורה : מערך נתונים גולמי של אודיו.
גרסאות :
-
2.1.1
: תקן את סוג נתוני הדיבור באמצעות dtype=tf.int16. -
2.1.2
(ברירת מחדל): הוסף תצורת 'lazy_decode'.
-
גודל מערך נתונים :
59.37 GiB
דוגמאות ( tfds.as_dataframe ):