- توضیحات :
این مجموعه داده شامل 23659 جفت ارزیابی PAWS ترجمه شده توسط انسان و 296406 جفت آموزشی ترجمه شده ماشینی به شش زبان از نظر گونهشناسی متمایز است:
- فرانسوی
- اسپانیایی
- آلمانی
- چینی ها
- ژاپنی
- کره ای
برای جزئیات بیشتر، مقاله همراه را ببینید: PAWS-X: مجموعه داده های متضاد متقابل بین زبانی برای شناسایی پارافراسی در https://arxiv.org/abs/1908.11828
مشابه PAWS Dataset، نمونهها به بخشهای Train/Dev/Test تقسیم میشوند. همه فایل ها با فرمت tsv با چهار ستون هستند:
-
id: یک شناسه منحصر به فرد برای هر جفت. -
sentence11: جمله اول. -
sentence22: جمله دوم. -
(noisy_)label: (نویز) برچسب برای هر جفت.
هر برچسب دارای دو مقدار ممکن است: 0 نشان می دهد که جفت معنای متفاوتی دارد، در حالی که 1 نشان می دهد که جفت یک پارافراسی است.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/google-research-datasets/paws/tree/master/pawsx
کد منبع :
tfds.datasets.paws_x_wiki.Builderنسخه ها :
-
1.0.0(پیش فرض): بدون یادداشت انتشار.
-
حجم دانلود :
28.88 MiBذخیره خودکار ( اسناد ): بله
ساختار ویژگی :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
| ویژگی | کلاس | شکل | نوع D | شرح |
|---|---|---|---|---|
| FeaturesDict | ||||
| برچسب | ClassLabel | int64 | ||
| جمله 1 | متن | رشته | ||
| جمله 2 | متن | رشته |
کلیدهای نظارت شده (به
as_superviseddoc مراجعه کنید):Noneشکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de (پیکربندی پیشفرض)
توضیحات پیکربندی : به de ترجمه شده است
حجم مجموعه داده :
15.27 MiBتقسیم ها :
| شکاف | مثال ها |
|---|---|
'test' | 2000 |
'train' | 49,380 |
'validation' | 2000 |
- مثالها ( tfds.as_dataframe ):
paws_x_wiki/en
توضیحات پیکربندی : ترجمه شده به en
حجم مجموعه داده :
14.59 MiBتقسیم ها :
| شکاف | مثال ها |
|---|---|
'test' | 2000 |
'train' | 49,175 |
'validation' | 2000 |
- مثالها ( tfds.as_dataframe ):
paws_x_wiki/es
توضیحات پیکربندی : به es ترجمه شده است
حجم مجموعه داده :
15.27 MiBتقسیم ها :
| شکاف | مثال ها |
|---|---|
'test' | 2000 |
'train' | 49,401 |
'validation' | 1,961 |
- مثالها ( tfds.as_dataframe ):
paws_x_wiki/fr
توضیحات پیکربندی : ترجمه شده به fr
حجم مجموعه داده :
15.79 MiBتقسیم ها :
| شکاف | مثال ها |
|---|---|
'test' | 2000 |
'train' | 49,399 |
'validation' | 1,988 |
- مثالها ( tfds.as_dataframe ):
paws_x_wiki/ja
توضیحات پیکربندی : به ja ترجمه شده است
حجم مجموعه داده :
17.77 MiBتقسیم ها :
| شکاف | مثال ها |
|---|---|
'test' | 2000 |
'train' | 49,401 |
'validation' | 2000 |
- مثالها ( tfds.as_dataframe ):
paws_x_wiki/ko
توضیحات پیکربندی : به ko ترجمه شده است
حجم مجموعه داده :
16.42 MiBتقسیم ها :
| شکاف | مثال ها |
|---|---|
'test' | 1999 |
'train' | 49,164 |
'validation' | 2000 |
- مثالها ( tfds.as_dataframe ):
paws_x_wiki/zh
توضیحات پیکربندی : به zh ترجمه شده است
حجم مجموعه داده :
13.20 MiBتقسیم ها :
| شکاف | مثال ها |
|---|---|
'test' | 2000 |
'train' | 49,401 |
'validation' | 2000 |
- مثالها ( tfds.as_dataframe ):