도서관 연설

  • 설명 :

LibriSpeech는 Daniel Povey의 도움을 받아 Vassil Panayotov가 준비한 16kHz의 샘플링 속도로 약 1000시간 분량의 영어 음성 읽기 자료입니다. 데이터는 LibriVox 프로젝트에서 읽은 오디오북에서 파생되었으며 신중하게 분류되고 정렬되었습니다.

더 빠르게 읽고 더 작은 데이터 세트 크기를 위해 지연 오디오 디코딩을 사용하는 것이 좋습니다. - tensorflow_io 라이브러리 설치: pip install tensorflow-io - 지연 디코딩 활성화: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

나뉘다
'dev_clean' 2,703
'dev_other' 2,864
'test_clean' 2,620
'test_other' 2,939
'train_clean100' 28,539
'train_clean360' 104,014
'train_other500' 148,688
  • 기능 구조 :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 Dtype 설명
특징Dict
장_ID 텐서 정수64
ID 텐서
스피커_ID 텐서 정수64
연설 오디오 (없음,) 정수16
텍스트 텍스트
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/default (기본 구성)

  • 구성 설명 : 기본 데이터 세트입니다.

  • 버전 :

    • 2.1.1 (기본값): dtype=tf.int16으로 음성 데이터 유형을 수정합니다.
    • 2.1.2 : 'lazy_decode' 구성을 추가합니다.
  • 데이터세트 크기 : 304.47 GiB

  • ( tfds.as_dataframe ):

librispeech/lazy_decode

  • 구성 설명 : 원시 오디오 데이터세트.

  • 버전 :

    • 2.1.1 : dtype=tf.int16으로 음성 데이터 유형을 수정합니다.
    • 2.1.2 (기본값): 'lazy_decode' 구성을 추가합니다.
  • 데이터세트 크기 : 59.37 GiB

  • ( tfds.as_dataframe ):