- תיאור :
מערך נתונים זה מכיל 23,659 צמדי הערכת PAWS מתורגמים על ידי אדם ו-296,406 צמדי אימון מתורגמים במכונה בשש שפות שונות מבחינה טיפולוגית:
- צָרְפָתִית
- ספרדית
- גֶרמָנִיָת
- סִינִית
- יַפָּנִית
- קוריאנית
לפרטים נוספים, עיין במאמר המצורף: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification בכתובת https://arxiv.org/abs/1908.11828
בדומה ל-PAWS Dataset, דוגמאות מחולקות לקטעי רכבת/פיתוח/בדיקה. כל הקבצים הם בפורמט tsv עם ארבע עמודות:
-
id: מזהה ייחודי לכל זוג. -
sentence11 : המשפט הראשון. -
sentence22: המשפט השני. -
(noisy_)label: תווית (רועשת) לכל זוג.
לכל תווית יש שני ערכים אפשריים: 0 מציין שלזוג יש משמעות שונה, בעוד ש-1 מציין שהזוג הוא פרפרזה.
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://github.com/google-research-datasets/paws/tree/master/pawsx
קוד מקור :
tfds.datasets.paws_x_wiki.Builderגרסאות :
-
1.0.0(ברירת מחדל): אין הערות שחרור.
-
גודל הורדה :
28.88 MiBשמור אוטומטי במטמון ( תיעוד ): כן
מבנה תכונה :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
| תכונה | מעמד | צוּרָה | Dtype | תיאור |
|---|---|---|---|---|
| FeaturesDict | ||||
| תווית | ClassLabel | int64 | ||
| משפט 1 | טֶקסט | חוּט | ||
| משפט 2 | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_superviseddoc ):Noneאיור ( tfds.show_examples ): לא נתמך.
ציטוט :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de (תצורת ברירת המחדל)
תיאור תצורה : תורגם ל-de
גודל מערך נתונים :
15.27 MiBפיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'test' | 2,000 |
'train' | 49,380 |
'validation' | 2,000 |
- דוגמאות ( tfds.as_dataframe ):
paws_x_wiki/iw
תיאור תצורה : תורגם ל-en
גודל מערך נתונים :
14.59 MiBפיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'test' | 2,000 |
'train' | 49,175 |
'validation' | 2,000 |
- דוגמאות ( tfds.as_dataframe ):
paws_x_wiki/es
תיאור תצורה : תורגם ל-es
גודל מערך נתונים :
15.27 MiBפיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 1,961 |
- דוגמאות ( tfds.as_dataframe ):
paws_x_wiki/fr
תיאור תצורה : תורגם ל-fr
גודל מערך נתונים :
15.79 MiBפיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'test' | 2,000 |
'train' | 49,399 |
'validation' | 1,988 |
- דוגמאות ( tfds.as_dataframe ):
paws_x_wiki/ja
תיאור תצורה : תורגם ל-ja
גודל מערך נתונים :
17.77 MiBפיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 2,000 |
- דוגמאות ( tfds.as_dataframe ):
paws_x_wiki/ko
תיאור תצורה : תורגם לקו
גודל מערך נתונים :
16.42 MiBפיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'test' | 1,999 |
'train' | 49,164 |
'validation' | 2,000 |
- דוגמאות ( tfds.as_dataframe ):
paws_x_wiki/zh
תיאור תצורה : תורגם ל-zh
גודל מערך נתונים :
13.20 MiBפיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 2,000 |
- דוגמאות ( tfds.as_dataframe ):