- الوصف :
OPUS عبارة عن مجموعة من النصوص المترجمة من الويب.
قم بإنشاء التكوين الخاص بك لاختيار زوج البيانات / اللغة المراد تحميله.
config = tfds.translate.opus.OpusConfig(
version=tfds.core.Version('0.1.0'),
language_pair=("de", "en"),
subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : http://opus.nlpl.eu/
كود المصدر :
tfds.datasets.opus.Builderإصدارات :
-
0.1.0(افتراضي): لا توجد ملاحظات حول الإصدار.
-
هيكل الميزة :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- وثائق الميزة :
| ميزة | فصل | شكل | نوع | وصف |
|---|---|---|---|---|
| ترجمة | ||||
| دي | نص | سلسلة | ||
| en | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر
as_superviseddoc ):('de', 'en')الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@inproceedings{Tiedemann2012ParallelData,
author = {Tiedemann, J},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {LREC}
year = {2012} }
opus / medical (التكوين الافتراضي)
وصف التكوين : المستندات الطبية
حجم التحميل :
34.29 MiBحجم مجموعة البيانات :
188.85 MiBالتخزين المؤقت التلقائي ( التوثيق ): فقط عندما يكون
shuffle_files=False(قطار)الانقسامات :
| انشق، مزق | أمثلة |
|---|---|
'train' | 1،108،752 |
- أمثلة ( tfds.as_dataframe ):
التأليف / القانون
وصف التكوين : وثائق القانون
حجم التحميل :
46.99 MiBحجم مجموعة البيانات :
214.44 MiBالتخزين المؤقت التلقائي ( التوثيق ): فقط عندما يكون
shuffle_files=False(قطار)الانقسامات :
| انشق، مزق | أمثلة |
|---|---|
'train' | 719372 |
- أمثلة ( tfds.as_dataframe ):
التأليف / القرآن
وصف التكوين : وثائق القرآن
حجم التحميل :
35.42 MiBحجم مجموعة البيانات :
117.54 MiBالتخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
| انشق، مزق | أمثلة |
|---|---|
'train' | 537128 |
- أمثلة ( tfds.as_dataframe ):
التأليف / تكنولوجيا المعلومات
وصف التكوين : وثائق تكنولوجيا المعلومات
حجم التحميل :
10.33 MiBحجم مجموعة البيانات :
42.51 MiBالتخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
| انشق، مزق | أمثلة |
|---|---|
'train' | 347،817 |
- أمثلة ( tfds.as_dataframe ):
التأليف / الترجمة
وصف التكوين : وثائق الترجمة
حجم التحميل :
677.64 MiBحجم مجموعة البيانات :
2.01 GiBالتخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
| انشق، مزق | أمثلة |
|---|---|
'train' | 22.512.639 |
- أمثلة ( tfds.as_dataframe ):