- คำอธิบาย :
LibriSpeech เป็นคลังคำพูดภาษาอังกฤษที่อ่านได้นานประมาณ 1,000 ชั่วโมง โดยมีอัตราการสุ่มตัวอย่าง 16 kHz จัดทำโดย Vassil Panayotov ด้วยความช่วยเหลือของ Daniel Povey ข้อมูลนี้ได้มาจากการอ่านหนังสือเสียงจากโครงการ LibriVox และได้รับการแบ่งส่วนและจัดแนวอย่างระมัดระวัง
ขอแนะนำให้ใช้การถอดรหัสเสียงแบบขี้เกียจเพื่อการอ่านที่รวดเร็วขึ้นและขนาดชุดข้อมูลที่เล็กลง: - ติดตั้งไลบรารี tensorflow_io
: pip install tensorflow-io
- เปิดใช้งานการถอดรหัสแบบขี้เกียจ: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
เอกสารประกอบเพิ่มเติม : สำรวจในเอกสารด้วยรหัส
หน้าแรก : http://www.openslr.org/12
ซอร์สโค้ด :
tfds.datasets.librispeech.Builder
ขนาดการดาวน์โหลด :
57.14 GiB
แคชอัตโนมัติ ( เอกสาร ): No
แยก :
แยก | ตัวอย่าง |
---|---|
'dev_clean' | 2,703 |
'dev_other' | 2,864 |
'test_clean' | 2,620 |
'test_other' | 2,939 |
'train_clean100' | 28,539 |
'train_clean360' | 104,014 |
'train_other500' | 148,688 |
- โครงสร้างคุณสมบัติ :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | ประเภทD | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
บทที่_id | เทนเซอร์ | int64 | ||
รหัส | เทนเซอร์ | เชือก | ||
ลำโพง_id | เทนเซอร์ | int64 | ||
คำพูด | เสียง | (ไม่มี,) | int16 | |
ข้อความ | ข้อความ | เชือก |
ปุ่มภายใต้การดูแล (ดู
as_supervised
doc ):('speech', 'text')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/ค่าเริ่มต้น (การกำหนดค่าเริ่มต้น)
คำอธิบายการกำหนดค่า : ชุดข้อมูลเริ่มต้น
รุ่น :
-
2.1.1
(ค่าเริ่มต้น): แก้ไขประเภทข้อมูลคำพูดด้วย dtype=tf.int16 -
2.1.2
: เพิ่มการกำหนดค่า 'lazy_decode'
-
ขนาดชุดข้อมูล :
304.47 GiB
ตัวอย่าง ( tfds.as_dataframe ):
librispeech/lazy_decode
คำอธิบายการกำหนดค่า : ชุดข้อมูลเสียงดิบ
รุ่น :
-
2.1.1
: แก้ไขประเภทข้อมูลคำพูดด้วย dtype=tf.int16 -
2.1.2
(ค่าเริ่มต้น): เพิ่มการกำหนดค่า 'lazy_decode'
-
ขนาดชุดข้อมูล :
59.37 GiB
ตัวอย่าง ( tfds.as_dataframe ):