- תיאור :
OPUS הוא אוסף של טקסטים מתורגמים מהרשת.
צור תצורה משלך כדי לבחור איזה צמד נתונים/שפות לטעון.
config = tfds.translate.opus.OpusConfig(
version=tfds.core.Version('0.1.0'),
language_pair=("de", "en"),
subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : http://opus.nlpl.eu/
קוד מקור :
tfds.datasets.opus.Builderגרסאות :
-
0.1.0(ברירת מחדל): אין הערות שחרור.
-
מבנה תכונה :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
| תכונה | מעמד | צוּרָה | Dtype | תיאור |
|---|---|---|---|---|
| תִרגוּם | ||||
| דה | טֶקסט | חוּט | ||
| he | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_superviseddoc ):('de', 'en')איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@inproceedings{Tiedemann2012ParallelData,
author = {Tiedemann, J},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {LREC}
year = {2012} }
אופוס/רפואה (תצורת ברירת מחדל)
תיאור תצורה : מסמכים רפואיים
גודל הורדה :
34.29 MiBגודל ערכת נתונים:
188.85 MiBשמור אוטומטי במטמון ( תיעוד ): רק כאשר
shuffle_files=False(רכבת)פיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'train' | 1,108,752 |
- דוגמאות ( tfds.as_dataframe ):
אופוס/חוק
תיאור תצורה : מסמכי חוק
גודל הורדה :
46.99 MiBגודל ערכת נתונים:
214.44 MiBשמור אוטומטי במטמון ( תיעוד ): רק כאשר
shuffle_files=False(רכבת)פיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'train' | 719,372 |
- דוגמאות ( tfds.as_dataframe ):
אופוס/קוראן
תיאור תצורה : מסמכי קוראן
גודל הורדה :
35.42 MiBגודל ערכת נתונים:
117.54 MiBשמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'train' | 537,128 |
- דוגמאות ( tfds.as_dataframe ):
אופוס/IT
תיאור תצורה : מסמכי IT
גודל הורדה :
10.33 MiBגודל ערכת נתונים:
42.51 MiBשמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'train' | 347,817 |
- דוגמאות ( tfds.as_dataframe ):
אופוס/כתוביות
תיאור תצורה : מסמכי כתוביות
גודל הורדה :
677.64 MiBגודל מערך נתונים :
2.01 GiBשמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'train' | 22,512,639 |
- דוגמאות ( tfds.as_dataframe ):