- Descrizione :
Traduci il set di dati in base ai dati di statmt.org.
Esistono versioni per i diversi anni utilizzando una combinazione di più fonti di dati. La base wmt_translate ti consente di creare la tua configurazione per scegliere la tua coppia dati/lingua creando un tfds.translate.wmt.WmtConfig personalizzato.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : http://www.statmt.org/wmt16/translation-task.html
Codice sorgente :
tfds.translate.Wmt16TranslateVersioni :
-
1.0.0(impostazione predefinita): nessuna nota di rilascio.
-
Istruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in
download_config.manual_dir(il valore predefinito~/tensorflow_datasets/downloads/manual/):
Alcune delle configurazioni wmt qui richiedono un download manuale. Si prega di guardare in wmt.py per vedere il percorso esatto (e il nome del file) che deve essere scaricato.Figura ( tfds.show_examples ): non supportato.
Citazione :
@InProceedings{bojar-EtAl:2016:WMT1,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Graham, Yvette and Haddow, Barry and Huck, Matthias and Jimeno Yepes, Antonio and Koehn, Philipp and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Neveol, Aurelie and Neves, Mariana and Popel, Martin and Post, Matt and Rubino, Raphael and Scarton, Carolina and Specia, Lucia and Turchi, Marco and Verspoor, Karin and Zampieri, Marcos},
title = {Findings of the 2016 Conference on Machine Translation},
booktitle = {Proceedings of the First Conference on Machine Translation},
month = {August},
year = {2016},
address = {Berlin, Germany},
publisher = {Association for Computational Linguistics},
pages = {131--198},
url = {http://www.aclweb.org/anthology/W/W16/W16-2301}
}
wmt16_translate/cs-en (configurazione predefinita)
Descrizione della configurazione : set di dati dell'attività di traduzione cs-en WMT 2016.
Dimensione del download :
1.57 GiBDimensione del set di dati:
7.56 GiBCache automatica ( documentazione ): No
Divisioni :
| Diviso | Esempi |
|---|---|
'test' | 2.999 |
'train' | 52.335.651 |
'validation' | 2.656 |
- Struttura delle caratteristiche :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
| Caratteristica | Classe | Forma | Tipo D | Descrizione |
|---|---|---|---|---|
| Traduzione | ||||
| cs | Testo | corda | ||
| it | Testo | corda |
Chiavi supervisionate (vedi
as_superviseddoc ):('cs', 'en')Esempi ( tfds.as_dataframe ):
wmt16_translate/de-en
Descrizione della configurazione : set di dati dell'attività di traduzione de-en WMT 2016.
Dimensione del download :
1.57 GiBDimensione del set di dati:
1.38 GiBCache automatica ( documentazione ): No
Divisioni :
| Diviso | Esempi |
|---|---|
'test' | 2.999 |
'train' | 4.548.885 |
'validation' | 2.169 |
- Struttura delle caratteristiche :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
| Caratteristica | Classe | Forma | Tipo D | Descrizione |
|---|---|---|---|---|
| Traduzione | ||||
| de | Testo | corda | ||
| it | Testo | corda |
Chiavi supervisionate (Vedi
as_superviseddoc ):('de', 'en')Esempi ( tfds.as_dataframe ):
wmt16_translate/fi-it
Descrizione della configurazione : set di dati dell'attività di traduzione fi-en WMT 2016.
Dimensione del download :
260.51 MiBDimensione del set di dati:
624.31 MiBCache automatica ( documentazione ): No
Divisioni :
| Diviso | Esempi |
|---|---|
'test' | 6.000 |
'train' | 2.073.394 |
'validation' | 1.370 |
- Struttura delle caratteristiche :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
| Caratteristica | Classe | Forma | Tipo D | Descrizione |
|---|---|---|---|---|
| Traduzione | ||||
| it | Testo | corda | ||
| fi | Testo | corda |
Chiavi supervisionate (vedi
as_superviseddoc ):('fi', 'en')Esempi ( tfds.as_dataframe ):
wmt16_translate/ro-en
Descrizione della configurazione : set di dati dell'attività di traduzione ro-en WMT 2016.
Dimensione del download :
273.83 MiBDimensione del set di dati:
194.35 MiBCache automatica ( documentazione ): Sì (test, convalida), solo quando
shuffle_files=False(train)Divisioni :
| Diviso | Esempi |
|---|---|
'test' | 1.999 |
'train' | 610.320 |
'validation' | 1.999 |
- Struttura delle caratteristiche :
Translation({
'en': Text(shape=(), dtype=string),
'ro': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
| Caratteristica | Classe | Forma | Tipo D | Descrizione |
|---|---|---|---|---|
| Traduzione | ||||
| it | Testo | corda | ||
| ro | Testo | corda |
Chiavi supervisionate (vedi
as_superviseddoc ):('ro', 'en')Esempi ( tfds.as_dataframe ):
wmt16_translate/ru-en
Descrizione della configurazione : set di dati dell'attività di traduzione ru-en WMT 2016.
Dimensioni del download :
993.38 MiBDimensione del set di dati:
854.44 MiBCache automatica ( documentazione ): No
Divisioni :
| Diviso | Esempi |
|---|---|
'test' | 2.998 |
'train' | 2.516.162 |
'validation' | 2.818 |
- Struttura delle caratteristiche :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
| Caratteristica | Classe | Forma | Tipo D | Descrizione |
|---|---|---|---|---|
| Traduzione | ||||
| it | Testo | corda | ||
| ru | Testo | corda |
Chiavi supervisionate (vedi
as_superviseddoc ):('ru', 'en')Esempi ( tfds.as_dataframe ):
wmt16_translate/tr-it
Descrizione della configurazione : set di dati dell'attività di traduzione tr-en WMT 2016.
Dimensione del download :
59.32 MiBDimensione del set di dati:
63.21 MiBAuto-cache ( documentazione ): Sì
Divisioni :
| Diviso | Esempi |
|---|---|
'test' | 3.000 |
'train' | 205.756 |
'validation' | 1.001 |
- Struttura delle caratteristiche :
Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
| Caratteristica | Classe | Forma | Tipo D | Descrizione |
|---|---|---|---|---|
| Traduzione | ||||
| it | Testo | corda | ||
| tr | Testo | corda |
Chiavi supervisionate (vedi
as_superviseddoc ):('tr', 'en')Esempi ( tfds.as_dataframe ):