- Descripción :
Estos datos son extraídos del corpus Tatoeba, con fecha sábado 17/11/2018.
Para cada idioma, hemos seleccionado 1000 oraciones en inglés y sus traducciones, si están disponibles. Consulte este documento para obtener una descripción de los idiomas, sus familias y escrituras, así como los resultados de referencia.
Tenga en cuenta que las oraciones en inglés no son idénticas para todos los pares de idiomas. Esto significa que los resultados no son directamente comparables entre idiomas.
Página de inicio: http://opus.nlpl.eu/Tatoeba.php
Código fuente :
tfds.datasets.tatoeba.BuilderVersiones :
-
1.0.0(predeterminado): Versión inicial.
-
Almacenamiento automático en caché ( documentación ): Sí
Estructura de características :
FeaturesDict({
'source_language': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_language': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- Documentación de características :
| Característica | Clase | Forma | Tipo D | Descripción |
|---|---|---|---|---|
| CaracterísticasDict | ||||
| lenguaje fuente | Texto | cadena | ||
| oración_origen | Texto | cadena | ||
| lengua de llegada | Texto | cadena | ||
| frase_objetivo | Texto | cadena |
Claves supervisadas (Ver
as_superviseddoc ):NoneFigura ( tfds.show_examples ): no compatible.
Cita :
@article{tatoeba,
title={Massively Multilingual Sentence Embeddings for Zero-Shot
Cross-Lingual Transfer and Beyond},
author={Mikel, Artetxe and Holger, Schwenk,},
journal={arXiv:1812.10464v2},
year={2018}
}
@InProceedings{TIEDEMANN12.463,
author = {J{\"o}rg}rg Tiedemann},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)},
year = {2012},
month = {may},
date = {23-25},
address = {Istanbul, Turkey},
editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis},
publisher = {European Language Resources Association (ELRA)},
isbn = {978-2-9517408-7-7},
language = {english}
}
tatoeba/tatoeba_af (configuración predeterminada)
Tamaño de la descarga :
58.24 KiBTamaño del conjunto de datos :
162.74 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_ar
Tamaño de la descarga :
70.95 KiBTamaño del conjunto de datos :
175.46 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_bg
Tamaño de la descarga :
99.88 KiBTamaño del conjunto de datos :
204.64 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_bn
Tamaño de la descarga :
89.55 KiBTamaño del conjunto de datos :
194.24 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_de
Tamaño de la descarga :
103.09 KiBTamaño del conjunto de datos :
207.93 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_el
Tamaño de la descarga :
77.11 KiBTamaño del conjunto de datos :
181.65 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_es
Tamaño de la descarga :
70.57 KiBTamaño del conjunto de datos :
175.12 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_et
Tamaño de la descarga :
58.33 KiBTamaño del conjunto de datos :
162.85 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_eu
Tamaño de la descarga :
64.52 KiBTamaño del conjunto de datos :
169.02 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_fa
Tamaño de la descarga :
91.52 KiBTamaño del conjunto de datos :
196.15 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_fi
Tamaño de la descarga :
73.90 KiBTamaño del conjunto de datos :
178.47 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_fr
Tamaño de la descarga :
78.14 KiBTamaño del conjunto de datos :
182.68 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_he
Tamaño de la descarga :
81.54 KiBTamaño del conjunto de datos :
186.15 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_hi
Tamaño de la descarga :
119.69 KiBTamaño del conjunto de datos :
224.89 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_hu
Tamaño de la descarga :
67.27 KiBTamaño del conjunto de datos :
171.78 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_id
Tamaño de la descarga :
73.09 KiBTamaño del conjunto de datos :
177.61 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_it
Tamaño de la descarga :
64.29 KiBTamaño del conjunto de datos :
168.81 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_ja
Tamaño de la descarga :
90.90 KiBTamaño del conjunto de datos :
195.53 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_jv
Tamaño de la descarga :
13.59 KiBTamaño del conjunto de datos :
35.01 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 205 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_ka
Tamaño de la descarga :
70.47 KiBTamaño del conjunto de datos :
148.67 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 746 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_kk
Tamaño de la descarga :
46.07 KiBTamaño del conjunto de datos :
106.25 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 575 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_ko
Tamaño de la descarga :
77.28 KiBTamaño del conjunto de datos :
181.88 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_ml
Tamaño de la descarga :
92.50 KiBTamaño del conjunto de datos :
165.14 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 687 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_mr
Tamaño de la descarga :
98.19 KiBTamaño del conjunto de datos :
202.96 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_nl
Tamaño de la descarga :
71.55 KiBTamaño del conjunto de datos :
176.10 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_pt
Tamaño de la descarga :
73.42 KiBTamaño del conjunto de datos :
177.95 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_ru
Tamaño de la descarga :
90.30 KiBTamaño del conjunto de datos :
194.92 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_sw
Tamaño de la descarga :
19.99 KiBTamaño del conjunto de datos :
60.75 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 390 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_ta
Tamaño de la descarga :
38.52 KiBTamaño del conjunto de datos :
70.93 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 307 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_te
Tamaño de la descarga :
24.55 KiBTamaño del conjunto de datos :
49.07 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 234 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_th
Tamaño de la descarga :
61.72 KiBTamaño del conjunto de datos :
119.32 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 548 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_tl
Tamaño de la descarga :
66.54 KiBTamaño del conjunto de datos :
171.04 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_tr
Tamaño de la descarga :
70.20 KiBTamaño del conjunto de datos :
174.70 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_ur
Tamaño de la descarga :
86.63 KiBTamaño del conjunto de datos :
191.20 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_vi
Tamaño de la descarga :
89.26 KiBTamaño del conjunto de datos :
193.89 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):
tatoeba/tatoeba_zh
Tamaño de la descarga :
67.32 KiBTamaño del conjunto de datos :
171.85 KiBDivisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 1,000 |
- Ejemplos ( tfds.as_dataframe ):