- الوصف :
نص التنظيف لأكثر من 40 إصدارًا من صفحات ويكيبيديا يتوافق مع الكيانات. تحتوي مجموعات البيانات على تقسيمات تدريب/تطوير/اختبار لكل لغة. يتم تنظيف مجموعة البيانات عن طريق تصفية الصفحات لإزالة صفحات التوضيح، وصفحات إعادة التوجيه، والصفحات المحذوفة، والصفحات غير المتعلقة بالكيان. يحتوي كل مثال على معرف ويكي بيانات الكيان، ومقالة ويكيبيديا الكاملة بعد معالجة الصفحة التي تزيل الأقسام غير المتعلقة بالمحتوى والكائنات المنظمة. يمكن العثور على نماذج اللغة التي تم تدريبها على هذه المجموعة - بما في ذلك 41 نموذجًا أحادي اللغة ونموذجين متعددي اللغات - على https://tfhub.dev/google/collections/wiki40b-lm/1
وثائق إضافية : استكشاف الأوراق باستخدام الكود
الصفحة الرئيسية : https://research.google/pubs/pub49029/
كود المصدر :
tfds.text.Wiki40bالإصدارات :
-
1.3.0(افتراضي): لا توجد ملاحظات الإصدار.
-
حجم التحميل :
Unknown sizeهيكل الميزة :
FeaturesDict({
'text': Text(shape=(), dtype=string),
'version_id': Text(shape=(), dtype=string),
'wikidata_id': Text(shape=(), dtype=string),
})
- وثائق الميزة :
| ميزة | فصل | شكل | نوع D | وصف |
|---|---|---|---|---|
| المميزاتDict | ||||
| نص | نص | خيط | ||
| version_id | نص | خيط | ||
| wikidata_id | نص | خيط |
المفاتيح الخاضعة للإشراف (راجع
as_superviseddoc ):Noneالشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle = {LREC 2020}
}
wiki40b/en (التكوين الافتراضي)
وصف التكوين : مجموعة بيانات Wiki40B لـ en.
حجم مجموعة البيانات :
9.91 GiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 162,274 |
'train' | 2,926,536 |
'validation' | 163,597 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/ar
وصف التكوين : مجموعة بيانات Wiki40B لـ ar.
حجم مجموعة البيانات :
833.20 MiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 12,271 |
'train' | 220,885 |
'validation' | 12,198 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/zh-cn
وصف التكوين : مجموعة بيانات Wiki40B لـ zh-cn.
حجم مجموعة البيانات :
985.53 MiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 30,355 |
'train' | 549,672 |
'validation' | 30,299 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/zh-tw
وصف التكوين : مجموعة بيانات Wiki40B لـ zh-tw.
حجم مجموعة البيانات :
986.45 MiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 30,670 |
'train' | 552,031 |
'validation' | 30,739 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/nl
وصف التكوين : مجموعة بيانات Wiki40B لـ nl.
حجم مجموعة البيانات :
961.82 MiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 24,776 |
'train' | 447,555 |
'validation' | 25,201 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/الاب
وصف التكوين : مجموعة بيانات Wiki40B لـ fr.
حجم مجموعة البيانات :
3.37 GiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 68,004 |
'train' | 1,227,206 |
'validation' | 68,655 |
- أمثلة ( tfds.as_dataframe ):
ويكي40ب/دي
وصف التكوين : مجموعة بيانات Wiki40B لـ de.
حجم مجموعة البيانات :
4.78 GiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 86,594 |
'train' | 1,554,910 |
'validation' | 86,068 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/it
وصف التكوين : مجموعة بيانات Wiki40B الخاصة به.
حجم مجموعة البيانات :
2.00 GiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 40,443 |
'train' | 732,609 |
'validation' | 40,684 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/ja
وصف التكوين : مجموعة بيانات Wiki40B لـ ja.
حجم مجموعة البيانات :
2.19 GiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 41,268 |
'train' | 745,392 |
'validation' | 41,576 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/كو
وصف التكوين : مجموعة بيانات Wiki40B لـ ko.
حجم مجموعة البيانات :
453.98 MiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 10802 |
'train' | 194,977 |
'validation' | 10,805 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/pl
وصف التكوين : مجموعة بيانات Wiki40B لـ pl.
حجم مجموعة البيانات :
1.03 GiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 27,987 |
'train' | 505,191 |
'validation' | 28,310 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/pt
وصف التكوين : مجموعة بيانات Wiki40B لـ pt.
حجم مجموعة البيانات :
1.08 GiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 22,693 |
'train' | 406,507 |
'validation' | 22,301 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/ru
وصف التكوين : مجموعة بيانات Wiki40B لـ ru.
حجم مجموعة البيانات :
4.13 GiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 51,885 |
'train' | 926,037 |
'validation' | 51,287 |
- أمثلة ( tfds.as_dataframe ):
ويكي40ب/إس
وصف التكوين : مجموعة بيانات Wiki40B لـ es.
حجم مجموعة البيانات :
2.70 GiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 48,764 |
'train' | 872,541 |
'validation' | 48,592 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/th
وصف التكوين : مجموعة بيانات Wiki40B لـ th.
حجم مجموعة البيانات :
326.29 MiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 3,114 |
'train' | 56,798 |
'validation' | 3,093 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/tr
وصف التكوين : مجموعة بيانات Wiki40B لـ tr.
حجم مجموعة البيانات :
308.87 MiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 7,890 |
'train' | 142,576 |
'validation' | 7,845 |
- أمثلة ( tfds.as_dataframe ):
ويكي40ب/بج
وصف التكوين : مجموعة بيانات Wiki40B لـ bg.
حجم مجموعة البيانات :
433.20 MiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 7,289 |
'train' | 130,670 |
'validation' | 7,259 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/ca
وصف التكوين : مجموعة بيانات Wiki40B لـ ca.
حجم مجموعة البيانات :
753.00 MiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 15,568 |
'train' | 277,313 |
'validation' | 15,362 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/cs
وصف التكوين : مجموعة بيانات Wiki40B لـ cs.
حجم مجموعة البيانات :
631.84 MiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 12,984 |
'train' | 235,971 |
'validation' | 13,096 |
- أمثلة ( tfds.as_dataframe ):
ويكي40ب/دا
وصف التكوين : مجموعة بيانات Wiki40B لـ da.
حجم مجموعة البيانات :
240.51 MiBتخزين مؤقت تلقائي ( الوثائق ): نعم (اختبار، التحقق من الصحة)، فقط عندما تكون
shuffle_files=False(تدريب)الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 6,219 |
'train' | 109,486 |
'validation' | 6,173 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/el
وصف التكوين : مجموعة بيانات Wiki40B لـ el.
حجم مجموعة البيانات :
524.77 MiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 5,261 |
'train' | 93,596 |
'validation' | 5,130 |
- أمثلة ( tfds.as_dataframe ):
ويكي40ب/وآخرون
وصف التكوين : مجموعة بيانات Wiki40B لـ et.
حجم مجموعة البيانات :
184.07 MiBتخزين مؤقت تلقائي ( الوثائق ): نعم (اختبار، التحقق من الصحة)، فقط عندما تكون
shuffle_files=False(تدريب)الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 6,205 |
'train' | 114,464 |
'validation' | 6,351 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/fa
وصف التكوين : مجموعة بيانات Wiki40B لـ fa.
حجم مجموعة البيانات :
482.55 MiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 11,262 |
'train' | 203,145 |
'validation' | 11,180 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/fi
وصف التكوين : مجموعة بيانات Wiki40B لـ fi.
حجم مجموعة البيانات :
534.13 MiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 14,179 |
'train' | 255,822 |
'validation' | 13,962 |
- أمثلة ( tfds.as_dataframe ):
ويكي40ب/هي
وصف التكوين : مجموعة بيانات Wiki40B له.
حجم مجموعة البيانات :
869.51 MiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 9,344 |
'train' | 165,359 |
'validation' | 9,231 |
- أمثلة ( tfds.as_dataframe ):
ويكي40ب/مرحبا
وصف التكوين : مجموعة بيانات Wiki40B لـ hi.
حجم مجموعة البيانات :
277.56 MiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 2,643 |
'train' | 45,737 |
'validation' | 2,596 |
- أمثلة ( tfds.as_dataframe ):
ويكي40ب/ساعة
وصف التكوين : مجموعة بيانات Wiki40B لـ hr.
حجم مجموعة البيانات :
235.58 MiBتخزين مؤقت تلقائي ( الوثائق ): نعم (اختبار، التحقق من الصحة)، فقط عندما تكون
shuffle_files=False(تدريب)الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 5,724 |
'train' | 103,857 |
'validation' | 5,792 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/هو
وصف التكوين : مجموعة بيانات Wiki40B لـ hu.
حجم مجموعة البيانات :
634.25 MiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 15,258 |
'train' | 273,248 |
'validation' | 15,208 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/معرف
وصف التكوين : مجموعة بيانات Wiki40B للمعرف.
حجم مجموعة البيانات :
334.06 MiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 8,598 |
'train' | 156,255 |
'validation' | 8,714 |
- أمثلة ( tfds.as_dataframe ):
ويكي40ب/لتر
وصف التكوين : مجموعة بيانات Wiki40B لـ lt.
حجم مجموعة البيانات :
140.46 MiBالتخزين المؤقت التلقائي ( الوثائق ): نعم
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 4,683 |
'train' | 84,854 |
'validation' | 4,754 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/lv
وصف التكوين : مجموعة بيانات Wiki40B للمستوى lv.
حجم مجموعة البيانات :
80.07 MiBالتخزين المؤقت التلقائي ( الوثائق ): نعم
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 1,932 |
'train' | 33,064 |
'validation' | 1,857 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/ مللي ثانية
وصف التكوين : مجموعة بيانات Wiki40B لـ ms.
حجم مجموعة البيانات :
142.49 MiBتخزين مؤقت تلقائي ( الوثائق ): نعم (اختبار، التحقق من الصحة)، فقط عندما تكون
shuffle_files=False(تدريب)الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 5,235 |
'train' | 97,509 |
'validation' | 5,357 |
- أمثلة ( tfds.as_dataframe ):
ويكي40ب/لا
وصف التكوين : مجموعة بيانات Wiki40B للرقم.
حجم مجموعة البيانات :
382.03 MiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 10,588 |
'train' | 190,588 |
'validation' | 10,547 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/ro
وصف التكوين : مجموعة بيانات Wiki40B لـ ro.
حجم مجموعة البيانات :
319.68 MiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 7,870 |
'train' | 139,615 |
'validation' | 7,624 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/sk
وصف التكوين : مجموعة بيانات Wiki40B لـ sk.
حجم مجموعة البيانات :
170.20 MiBتخزين مؤقت تلقائي ( الوثائق ): نعم (اختبار، التحقق من الصحة)، فقط عندما تكون
shuffle_files=False(تدريب)الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 5,741 |
'train' | 103,095 |
'validation' | 5,604 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/sl
وصف التكوين : مجموعة بيانات Wiki40B لـ sl.
حجم مجموعة البيانات :
157.38 MiBتخزين مؤقت تلقائي ( الوثائق ): نعم (اختبار، التحقق من الصحة)، فقط عندما تكون
shuffle_files=False(تدريب)الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 3,341 |
'train' | 60,927 |
'validation' | 3,287 |
- أمثلة ( tfds.as_dataframe ):
ويكي40ب/ريال
وصف التكوين : مجموعة بيانات Wiki40B لـ sr.
حجم مجموعة البيانات :
582.20 MiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 17,997 |
'train' | 327,313 |
'validation' | 18,100 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/sv
وصف التكوين : مجموعة بيانات Wiki40B لـ sv.
حجم مجموعة البيانات :
613.62 MiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 22,291 |
'train' | 400,742 |
'validation' | 22,263 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/tl
وصف التكوين : مجموعة بيانات Wiki40B لـ tl.
حجم مجموعة البيانات :
29.04 MiBالتخزين المؤقت التلقائي ( الوثائق ): نعم
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 1,446 |
'train' | 25,940 |
'validation' | 1,472 |
- أمثلة ( tfds.as_dataframe ):
ويكي40ب/المملكة المتحدة
وصف التكوين : مجموعة بيانات Wiki40B للمملكة المتحدة.
حجم مجموعة البيانات :
1.67 GiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 26,581 |
'train' | 477,618 |
'validation' | 26,324 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/السادس
وصف التكوين : مجموعة بيانات Wiki40B لـ vi.
حجم مجموعة البيانات :
497.70 MiBالتخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
| ينقسم | أمثلة |
|---|---|
'test' | 7,942 |
'train' | 146,255 |
'validation' | 8,195 |
- أمثلة ( tfds.as_dataframe ):