- Descrição :
Esses dados são extraídos do corpus Tatoeba, datado de sábado 11/11/2018.
Para cada idioma, selecionamos 1000 frases em inglês e suas traduções, se disponíveis. Verifique este documento para obter uma descrição dos idiomas, suas famílias e scripts, bem como os resultados da linha de base.
Observe que as frases em inglês não são idênticas para todos os pares de idiomas. Isso significa que os resultados não são diretamente comparáveis entre os idiomas.
Página inicial : http://opus.nlpl.eu/Tatoeba.php
Código fonte :
tfds.datasets.tatoeba.BuilderVersões :
-
1.0.0(padrão): versão inicial.
-
Cache automático ( documentação ): Sim
Estrutura de recursos :
FeaturesDict({
'source_language': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_language': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- Documentação do recurso :
| Recurso | Aula | Forma | Tipo D | Descrição |
|---|---|---|---|---|
| RecursosDict | ||||
| idioma_fonte | Texto | corda | ||
| frase_fonte | Texto | corda | ||
| idioma_alvo | Texto | corda | ||
| frase_alvo | Texto | corda |
Chaves supervisionadas (Consulte
as_superviseddoc ):NoneFigura ( tfds.show_examples ): Não suportado.
Citação :
@article{tatoeba,
title={Massively Multilingual Sentence Embeddings for Zero-Shot
Cross-Lingual Transfer and Beyond},
author={Mikel, Artetxe and Holger, Schwenk,},
journal={arXiv:1812.10464v2},
year={2018}
}
@InProceedings{TIEDEMANN12.463,
author = {J{\"o}rg}rg Tiedemann},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)},
year = {2012},
month = {may},
date = {23-25},
address = {Istanbul, Turkey},
editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis},
publisher = {European Language Resources Association (ELRA)},
isbn = {978-2-9517408-7-7},
language = {english}
}
tatoeba/tatoeba_af (configuração padrão)
Tamanho do download :
58.24 KiBTamanho do conjunto de dados :
162.74 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_ar
Tamanho do download :
70.95 KiBTamanho do conjunto de dados :
175.46 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_bg
Tamanho do download :
99.88 KiBTamanho do conjunto de dados :
204.64 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_bn
Tamanho do download :
89.55 KiBTamanho do conjunto de dados :
194.24 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_de
Tamanho do download :
103.09 KiBTamanho do conjunto de dados :
207.93 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_el
Tamanho do download :
77.11 KiBTamanho do conjunto de dados :
181.65 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_es
Tamanho do download :
70.57 KiBTamanho do conjunto de dados :
175.12 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_et
Tamanho do download :
58.33 KiBTamanho do conjunto de dados :
162.85 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_eu
Tamanho do download :
64.52 KiBTamanho do conjunto de dados :
169.02 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_fa
Tamanho do download :
91.52 KiBTamanho do conjunto de dados :
196.15 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_fi
Tamanho do download :
73.90 KiBTamanho do conjunto de dados :
178.47 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_fr
Tamanho do download :
78.14 KiBTamanho do conjunto de dados :
182.68 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_he
Tamanho do download :
81.54 KiBTamanho do conjunto de dados :
186.15 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_hi
Tamanho do download :
119.69 KiBTamanho do conjunto de dados :
224.89 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_hu
Tamanho do download :
67.27 KiBTamanho do conjunto de dados :
171.78 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_id
Tamanho do download :
73.09 KiBTamanho do conjunto de dados :
177.61 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_it
Tamanho do download :
64.29 KiBTamanho do conjunto de dados :
168.81 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_ja
Tamanho do download :
90.90 KiBTamanho do conjunto de dados :
195.53 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_jv
Tamanho do download :
13.59 KiBTamanho do conjunto de dados :
35.01 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 205 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_ka
Tamanho do download :
70.47 KiBTamanho do conjunto de dados :
148.67 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 746 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_kk
Tamanho do download :
46.07 KiBTamanho do conjunto de dados :
106.25 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 575 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_ko
Tamanho do download :
77.28 KiBTamanho do conjunto de dados :
181.88 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_ml
Tamanho do download :
92.50 KiBTamanho do conjunto de dados :
165.14 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 687 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_mr
Tamanho do download :
98.19 KiBTamanho do conjunto de dados :
202.96 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_nl
Tamanho do download :
71.55 KiBTamanho do conjunto de dados :
176.10 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_pt
Tamanho do download :
73.42 KiBTamanho do conjunto de dados :
177.95 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_ru
Tamanho do download :
90.30 KiBTamanho do conjunto de dados :
194.92 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_sw
Tamanho do download :
19.99 KiBTamanho do conjunto de dados :
60.75 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 390 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_ta
Tamanho do download :
38.52 KiBTamanho do conjunto de dados :
70.93 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 307 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_te
Tamanho do download :
24.55 KiBTamanho do conjunto de dados :
49.07 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 234 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_th
Tamanho do download :
61.72 KiBTamanho do conjunto de dados :
119.32 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 548 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_tl
Tamanho do download :
66.54 KiBTamanho do conjunto de dados :
171.04 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_tr
Tamanho do download :
70.20 KiBTamanho do conjunto de dados :
174.70 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_ur
Tamanho do download :
86.63 KiBTamanho do conjunto de dados :
191.20 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_vi
Tamanho do download :
89.26 KiBTamanho do conjunto de dados :
193.89 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_zh
Tamanho do download :
67.32 KiBTamanho do conjunto de dados :
171.85 KiBDivisões :
| Dividir | Exemplos |
|---|---|
'train' | 1.000 |
- Exemplos ( tfds.as_dataframe ):