- Mô tả :
Đây là bộ dữ liệu giọng nói thuộc phạm vi công cộng bao gồm 13.100 đoạn âm thanh ngắn của một người nói đọc các đoạn văn từ 7 cuốn sách phi hư cấu. Một phiên âm được cung cấp cho mỗi clip. Các clip có độ dài khác nhau từ 1 đến 10 giây và có tổng thời lượng khoảng 24 giờ.
Các văn bản được xuất bản từ năm 1884 đến 1964, và thuộc phạm vi công cộng. Đoạn âm thanh được dự án LibriVox ghi lại vào năm 2016-17 và cũng thuộc phạm vi công cộng.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://keithito.com/LJ-Speech-Dataset/
Mã nguồn :
tfds.datasets.ljspeech.BuilderPhiên bản :
-
1.1.1(mặc định): Sửa kiểu dữ liệu giọng nói bằng dtype=tf.int16.
-
Kích thước tải xuống :
2.56 GiBKích thước tập dữ liệu :
10.73 GiBTự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
| Tách ra | ví dụ |
|---|---|
'train' | 13.100 |
- Cấu trúc tính năng :
FeaturesDict({
'id': string,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
'text_normalized': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
| Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
|---|---|---|---|---|
| Tính năngDict | ||||
| Tôi | tenxơ | sợi dây | ||
| lời nói | âm thanh | (Không có,) | int16 | |
| chữ | Chữ | sợi dây | ||
| text_chuẩn hóa | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_superviseddoc ):('text_normalized', 'speech')Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@misc{ljspeech17,
author = {Keith Ito},
title = {The LJ Speech Dataset},
howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
year = 2017
}