- Deskripsi :
Data ini disarikan dari korpus Tatoeba, tertanggal Sabtu 17/11/2018.
Untuk setiap bahasa, kami telah memilih 1000 kalimat bahasa Inggris dan terjemahannya, jika tersedia. Silakan periksa makalah ini untuk deskripsi bahasa, keluarga dan skrip mereka serta hasil dasar.
Harap dicatat bahwa kalimat bahasa Inggris tidak identik untuk semua pasangan bahasa. Ini berarti bahwa hasilnya tidak dapat dibandingkan secara langsung antar bahasa.
Beranda : http://opus.nlpl.eu/Tatoeba.php
Kode sumber :
tfds.datasets.tatoeba.BuilderVersi :
-
1.0.0(default): Rilis awal.
-
Di-cache otomatis ( dokumentasi ): Ya
Struktur fitur :
FeaturesDict({
'source_language': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_language': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
| Fitur | Kelas | Membentuk | Dtype | Keterangan |
|---|---|---|---|---|
| fiturDict | ||||
| bahasa sumber | Teks | rangkaian | ||
| sumber_kalimat | Teks | rangkaian | ||
| target_language | Teks | rangkaian | ||
| target_kalimat | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_superviseddoc ):NoneGambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@article{tatoeba,
title={Massively Multilingual Sentence Embeddings for Zero-Shot
Cross-Lingual Transfer and Beyond},
author={Mikel, Artetxe and Holger, Schwenk,},
journal={arXiv:1812.10464v2},
year={2018}
}
@InProceedings{TIEDEMANN12.463,
author = {J{\"o}rg}rg Tiedemann},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)},
year = {2012},
month = {may},
date = {23-25},
address = {Istanbul, Turkey},
editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis},
publisher = {European Language Resources Association (ELRA)},
isbn = {978-2-9517408-7-7},
language = {english}
}
tatoeba/tatoeba_af (konfigurasi default)
Ukuran unduhan :
58.24 KiBUkuran dataset :
162.74 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_ar
Ukuran unduhan :
70.95 KiBUkuran dataset :
175.46 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_bg
Ukuran unduhan :
99.88 KiBUkuran dataset :
204.64 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_bn
Ukuran unduhan :
89.55 KiBUkuran dataset :
194.24 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_de
Ukuran unduhan :
103.09 KiBUkuran dataset :
207.93 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_el
Ukuran unduhan :
77.11 KiBUkuran dataset :
181.65 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_es
Ukuran unduhan :
70.57 KiBUkuran dataset :
175.12 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_et
Ukuran unduhan :
58.33 KiBUkuran dataset :
162.85 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_eu
Ukuran unduhan :
64.52 KiBUkuran dataset :
169.02 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_fa
Ukuran unduhan :
91.52 KiBUkuran dataset :
196.15 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_fi
Ukuran unduhan :
73.90 KiBUkuran dataset :
178.47 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_fr
Ukuran unduhan :
78.14 KiBUkuran dataset :
182.68 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_he
Ukuran unduhan :
81.54 KiBUkuran dataset :
186.15 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_hi
Ukuran unduhan :
119.69 KiBUkuran dataset :
224.89 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_hu
Ukuran unduhan :
67.27 KiBUkuran dataset :
171.78 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_id
Ukuran unduhan :
73.09 KiBUkuran dataset :
177.61 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_it
Ukuran unduhan :
64.29 KiBUkuran dataset :
168.81 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_ja
Ukuran unduhan :
90.90 KiBUkuran dataset :
195.53 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_jv
Ukuran unduhan :
13.59 KiBUkuran dataset :
35.01 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 205 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_ka
Ukuran unduhan :
70.47 KiBUkuran dataset :
148.67 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 746 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_kk
Ukuran unduhan :
46.07 KiBUkuran dataset :
106.25 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 575 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_ko
Ukuran unduhan :
77.28 KiBUkuran dataset :
181.88 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_ml
Ukuran unduhan :
92.50 KiBUkuran dataset :
165.14 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 687 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_mr
Ukuran unduhan :
98.19 KiBUkuran dataset :
202.96 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_nl
Ukuran unduhan :
71.55 KiBUkuran dataset :
176.10 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_pt
Ukuran unduhan :
73.42 KiBUkuran dataset :
177.95 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_ru
Ukuran unduhan :
90.30 KiBUkuran dataset :
194.92 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_sw
Ukuran unduhan :
19.99 KiBUkuran dataset :
60.75 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 390 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_ta
Ukuran unduhan :
38.52 KiBUkuran dataset :
70.93 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 307 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_te
Ukuran unduhan :
24.55 KiBUkuran dataset :
49.07 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 234 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_th
Ukuran unduhan :
61.72 KiBUkuran dataset :
119.32 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 548 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_tl
Ukuran unduhan :
66.54 KiBUkuran dataset :
171.04 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_tr
Ukuran unduhan :
70.20 KiBUkuran dataset :
174.70 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_ur
Ukuran unduhan :
86.63 KiBUkuran dataset :
191.20 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_vi
Ukuran unduhan :
89.26 KiBUkuran dataset :
193.89 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):
tatoeba/tatoeba_zh
Ukuran unduhan :
67.32 KiBUkuran dataset :
171.85 KiBPerpecahan :
| Membelah | Contoh |
|---|---|
'train' | 1.000 |
- Contoh ( tfds.as_dataframe ):