- 설명 :
LibriSpeech는 Daniel Povey의 도움을 받아 Vassil Panayotov가 준비한 16kHz의 샘플링 속도로 약 1000시간 분량의 영어 음성 읽기 자료입니다. 데이터는 LibriVox 프로젝트에서 읽은 오디오북에서 파생되었으며 신중하게 분류되고 정렬되었습니다.
더 빠르게 읽고 더 작은 데이터 세트 크기를 위해 지연 오디오 디코딩을 사용하는 것이 좋습니다. - tensorflow_io
라이브러리 설치: pip install tensorflow-io
- 지연 디코딩 활성화: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
추가 문서 : 코드 가 포함된 논문 탐색
홈페이지 : http://www.openslr.org/12
다운로드 크기 :
57.14 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'dev_clean' | 2,703 |
'dev_other' | 2,864 |
'test_clean' | 2,620 |
'test_other' | 2,939 |
'train_clean100' | 28,539 |
'train_clean360' | 104,014 |
'train_other500' | 148,688 |
- 기능 구조 :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | Dtype | 설명 |
---|---|---|---|---|
특징Dict | ||||
장_ID | 텐서 | 정수64 | ||
ID | 텐서 | 끈 | ||
스피커_ID | 텐서 | 정수64 | ||
연설 | 오디오 | (없음,) | 정수16 | |
텍스트 | 텍스트 | 끈 |
감독되는 키 (
as_supervised
doc 참조):('speech', 'text')
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/default (기본 구성)
구성 설명 : 기본 데이터 세트입니다.
버전 :
-
2.1.1
(기본값): dtype=tf.int16으로 음성 데이터 유형을 수정합니다. -
2.1.2
: 'lazy_decode' 구성을 추가합니다.
-
데이터세트 크기 :
304.47 GiB
예 ( tfds.as_dataframe ):
librispeech/lazy_decode
구성 설명 : 원시 오디오 데이터세트.
버전 :
-
2.1.1
: dtype=tf.int16으로 음성 데이터 유형을 수정합니다. -
2.1.2
(기본값): 'lazy_decode' 구성을 추가합니다.
-
데이터세트 크기 :
59.37 GiB
예 ( tfds.as_dataframe ):