- Descrizione :
OPUS è una raccolta di testi tradotti dal web.
Crea la tua configurazione per scegliere quale coppia dati/lingua caricare.
config = tfds.translate.opus.OpusConfig(
version=tfds.core.Version('0.1.0'),
language_pair=("de", "en"),
subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : http://opus.nlpl.eu/
Codice sorgente :
tfds.datasets.opus.BuilderVersioni :
-
0.1.0(impostazione predefinita): nessuna nota di rilascio.
-
Struttura delle caratteristiche :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
| Caratteristica | Classe | Forma | Tipo D | Descrizione |
|---|---|---|---|---|
| Traduzione | ||||
| de | Testo | corda | ||
| it | Testo | corda |
Chiavi supervisionate (Vedi
as_superviseddoc ):('de', 'en')Figura ( tfds.show_examples ): non supportato.
Citazione :
@inproceedings{Tiedemann2012ParallelData,
author = {Tiedemann, J},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {LREC}
year = {2012} }
opus/medical (configurazione predefinita)
Descrizione della configurazione : documenti medici
Dimensione del download :
34.29 MiBDimensione del set di dati:
188.85 MiBCache automatica ( documentazione ): solo quando
shuffle_files=False(treno)Divisioni :
| Diviso | Esempi |
|---|---|
'train' | 1.108.752 |
- Esempi ( tfds.as_dataframe ):
opera/legge
Descrizione della configurazione : documenti di legge
Dimensioni del download :
46.99 MiBDimensione del set di dati:
214.44 MiBCache automatica ( documentazione ): solo quando
shuffle_files=False(treno)Divisioni :
| Diviso | Esempi |
|---|---|
'train' | 719.372 |
- Esempi ( tfds.as_dataframe ):
opera/corano
Descrizione della configurazione : documenti coranici
Dimensione del download :
35.42 MiBDimensione del set di dati:
117.54 MiBAuto-cache ( documentazione ): Sì
Divisioni :
| Diviso | Esempi |
|---|---|
'train' | 537,128 |
- Esempi ( tfds.as_dataframe ):
opera/IT
Descrizione della configurazione : documenti IT
Dimensione del download :
10.33 MiBDimensione del set di dati:
42.51 MiBAuto-cache ( documentazione ): Sì
Divisioni :
| Diviso | Esempi |
|---|---|
'train' | 347.817 |
- Esempi ( tfds.as_dataframe ):
opera/sottotitoli
Descrizione della configurazione : documenti dei sottotitoli
Dimensione del download :
677.64 MiBDimensione del set di dati:
2.01 GiBCache automatica ( documentazione ): No
Divisioni :
| Diviso | Esempi |
|---|---|
'train' | 22.512.639 |
- Esempi ( tfds.as_dataframe ):