- Описание :
Эти данные взяты из корпуса Tatoeba от субботы 17 ноября 2018 г.
Для каждого языка мы выбрали 1000 английских предложений и их переводы, если таковые имеются. Пожалуйста, ознакомьтесь с этой статьей для получения описания языков, их семейств и алфавитов, а также базовых результатов.
Обратите внимание, что английские предложения не идентичны для всех языковых пар. Это означает, что результаты не могут быть напрямую сопоставимы между языками.
Домашняя страница : http://opus.nlpl.eu/Tatoeba.php
Исходный код :
tfds.datasets.tatoeba.BuilderВерсии :
-
1.0.0(по умолчанию): Первоначальный выпуск.
-
Автоматическое кэширование ( документация ): Да
Структура функции :
FeaturesDict({
'source_language': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_language': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Сорт | Форма | Dтип | Описание |
|---|---|---|---|---|
| ОсобенностиDict | ||||
| исходный язык | Текст | нить | ||
| исходное_предложение | Текст | нить | ||
| язык перевода | Текст | нить | ||
| target_sentence | Текст | нить |
Ключи под наблюдением (см. документ
as_supervised):NoneРисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@article{tatoeba,
title={Massively Multilingual Sentence Embeddings for Zero-Shot
Cross-Lingual Transfer and Beyond},
author={Mikel, Artetxe and Holger, Schwenk,},
journal={arXiv:1812.10464v2},
year={2018}
}
@InProceedings{TIEDEMANN12.463,
author = {J{\"o}rg}rg Tiedemann},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)},
year = {2012},
month = {may},
date = {23-25},
address = {Istanbul, Turkey},
editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis},
publisher = {European Language Resources Association (ELRA)},
isbn = {978-2-9517408-7-7},
language = {english}
}
tatoeba/tatoeba_af (конфигурация по умолчанию)
Размер загрузки :
58.24 KiBРазмер набора данных :
162.74 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_ar
Размер загрузки :
70.95 KiBРазмер набора данных :
175.46 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_bg
Размер загрузки :
99.88 KiBРазмер набора данных :
204.64 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_bn
Размер загрузки :
89.55 KiBРазмер набора данных :
194.24 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_de
Размер загрузки :
103.09 KiBРазмер набора данных :
207.93 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_el
Размер загрузки :
77.11 KiBРазмер набора данных :
181.65 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_es
Размер загрузки :
70.57 KiBРазмер набора данных :
175.12 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_et
Размер загрузки :
58.33 KiBРазмер набора данных :
162.85 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_eu
Размер загрузки :
64.52 KiBРазмер набора данных :
169.02 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_fa
Размер загрузки :
91.52 KiBРазмер набора данных :
196.15 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_fi
Размер загрузки :
73.90 KiBРазмер набора данных :
178.47 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_fr
Размер загрузки :
78.14 KiBРазмер набора данных :
182.68 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_he
Размер загрузки :
81.54 KiBРазмер набора данных :
186.15 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_hi
Размер загрузки :
119.69 KiBРазмер набора данных :
224.89 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_hu
Размер загрузки :
67.27 KiBРазмер набора данных :
171.78 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_id
Размер загрузки :
73.09 KiBРазмер набора данных :
177.61 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_it
Размер загрузки :
64.29 KiBРазмер набора данных :
168.81 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_ja
Размер загрузки :
90.90 KiBРазмер набора данных :
195.53 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_jv
Размер загрузки :
13.59 KiBРазмер набора данных :
35.01 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 205 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_ka
Размер загрузки :
70.47 KiBРазмер набора данных :
148.67 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 746 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_kk
Размер загрузки :
46.07 KiBРазмер набора данных :
106.25 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 575 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_ko
Размер загрузки :
77.28 KiBРазмер набора данных :
181.88 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_ml
Размер загрузки :
92.50 KiBРазмер набора данных :
165.14 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 687 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_mr
Размер загрузки :
98.19 KiBРазмер набора данных :
202.96 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_nl
Размер загрузки :
71.55 KiBРазмер набора данных :
176.10 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_pt
Размер загрузки :
73.42 KiBРазмер набора данных :
177.95 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_ru
Размер загрузки :
90.30 KiBРазмер набора данных :
194.92 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_sw
Размер загрузки :
19.99 KiBРазмер набора данных :
60.75 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 390 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_ta
Размер загрузки :
38.52 KiBРазмер набора данных :
70.93 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 307 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_te
Размер загрузки :
24.55 KiBРазмер набора данных :
49.07 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 234 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_th
Размер загрузки :
61.72 KiBРазмер набора данных :
119.32 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 548 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_tl
Размер загрузки :
66.54 KiBРазмер набора данных :
171.04 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_tr
Размер загрузки :
70.20 KiBРазмер набора данных :
174.70 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_ur
Размер загрузки :
86.63 KiBРазмер набора данных :
191.20 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_vi
Размер загрузки :
89.26 KiBРазмер набора данных :
193.89 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):
татоэба/tatoeba_zh
Размер загрузки :
67.32 KiBРазмер набора данных :
171.85 KiBСплиты :
| Расколоть | Примеры |
|---|---|
'train' | 1000 |
- Примеры ( tfds.as_dataframe ):