- Mô tả :
Dịch tập dữ liệu dựa trên dữ liệu từ statmt.org.
Các phiên bản tồn tại cho các năm khác nhau bằng cách sử dụng kết hợp nhiều nguồn dữ liệu. Cơ sở wmt_translate cho phép bạn tạo cấu hình của riêng mình để chọn cặp dữ liệu/ngôn ngữ của riêng bạn bằng cách tạo tfds.translate.wmt.WmtConfig tùy chỉnh.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
Trang chủ : http://www.statmt.org/wmt13/translation-task.html
Mã nguồn :
tfds.translate.Wmt13TranslatePhiên bản :
-
1.0.0(mặc định): Không có ghi chú phát hành.
-
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào
download_config.manual_dir(mặc định là~/tensorflow_datasets/downloads/manual/):
Một số cấu hình wmt ở đây, yêu cầu tải xuống thủ công. Vui lòng xem wmt.py để xem đường dẫn chính xác (và tên tệp) phải được tải xuống.Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@InProceedings{bojar-EtAl:2013:WMT,
author = {Bojar, Ondrej and Buck, Christian and Callison-Burch, Chris and Federmann, Christian and Haddow, Barry and Koehn, Philipp and Monz, Christof and Post, Matt and Soricut, Radu and Specia, Lucia},
title = {Findings of the 2013 {Workshop on Statistical Machine Translation} },
booktitle = {Proceedings of the Eighth Workshop on Statistical Machine Translation},
month = {August},
year = {2013},
address = {Sofia, Bulgaria},
publisher = {Association for Computational Linguistics},
pages = {1--44},
url = {http://www.aclweb.org/anthology/W13-2201}
}
wmt13_translate/cs-en (cấu hình mặc định)
Mô tả cấu hình : Bộ dữ liệu tác vụ dịch WMT 2013 cs-en.
Kích thước tải xuống :
1.59 GiBKích thước tập dữ liệu :
2.89 GiBChia tách :
| Tách ra | ví dụ |
|---|---|
'test' | 3.000 |
'train' | 15.780.759 |
'validation' | 13,573 |
- Cấu trúc tính năng :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
| Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
|---|---|---|---|---|
| Dịch | ||||
| cs | Chữ | sợi dây | ||
| vi | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_superviseddoc ):('cs', 'en')Ví dụ ( tfds.as_dataframe ):
wmt13_translate/de-en
Mô tả cấu hình : Bộ dữ liệu nhiệm vụ dịch mã hóa WMT 2013.
Kích thước tải xuống :
1.59 GiBKích thước tập dữ liệu :
1.36 GiBChia tách :
| Tách ra | ví dụ |
|---|---|
'test' | 3.000 |
'train' | 4.485.758 |
'validation' | 13,573 |
- Cấu trúc tính năng :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
| Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
|---|---|---|---|---|
| Dịch | ||||
| de | Chữ | sợi dây | ||
| vi | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_superviseddoc ):('de', 'en')Ví dụ ( tfds.as_dataframe ):
wmt13_translate/fr-vi
Mô tả cấu hình : Bộ dữ liệu tác vụ dịch thuật fr-en của WMT 2013.
Kích thước tải xuống :
6.21 GiBKích thước tập dữ liệu :
14.64 GiBChia tách :
| Tách ra | ví dụ |
|---|---|
'test' | 3.000 |
'train' | 40.810.860 |
'validation' | 13,573 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'fr': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
| Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
|---|---|---|---|---|
| Dịch | ||||
| vi | Chữ | sợi dây | ||
| bạn thân | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_superviseddoc ):('fr', 'en')Ví dụ ( tfds.as_dataframe ):
wmt13_translate/es-vi
Mô tả cấu hình : Bộ dữ liệu tác vụ dịch WMT 2013 es-en.
Kích thước tải xuống :
3.79 GiBKích thước tập dữ liệu :
5.24 GiBChia tách :
| Tách ra | ví dụ |
|---|---|
'test' | 3.000 |
'train' | 15.176.790 |
'validation' | 13,573 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'es': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
| Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
|---|---|---|---|---|
| Dịch | ||||
| vi | Chữ | sợi dây | ||
| là | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_superviseddoc ):('es', 'en')Ví dụ ( tfds.as_dataframe ):
wmt13_translate/ru-en
Mô tả cấu hình : Bộ dữ liệu tác vụ dịch ru-en WMT 2013.
Kích thước tải xuống :
1010.20 MiBKích thước tập dữ liệu :
833.67 MiBChia tách :
| Tách ra | ví dụ |
|---|---|
'test' | 3.000 |
'train' | 2.471.670 |
'validation' | 3,003 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
| Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
|---|---|---|---|---|
| Dịch | ||||
| vi | Chữ | sợi dây | ||
| ru | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_superviseddoc ):('ru', 'en')Ví dụ ( tfds.as_dataframe ):