- توضیحات :
مجموعه داده را بر اساس داده های statmt.org ترجمه کنید.
نسخه ها برای سال های مختلف با استفاده از ترکیبی از چندین منبع داده وجود دارد. wmt_translate پایه به شما امکان می دهد با ایجاد یک tfds.translate.wmt.WmtConfig سفارشی، پیکربندی خود را ایجاد کنید تا جفت داده/زبان خود را انتخاب کنید.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
صفحه اصلی : http://www.statmt.org/wmt17/translation-task.html
کد منبع :
tfds.translate.Wmt17Translateنسخه ها :
-
1.0.0(پیش فرض): بدون یادداشت انتشار.
-
دستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir(پیشفرض~/tensorflow_datasets/downloads/manual/):
برخی از تنظیمات wmt در اینجا نیاز به دانلود دستی دارند. لطفاً برای دیدن مسیر دقیق (و نام فایل) که باید دانلود شود، به wmt.py نگاه کنید.شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@InProceedings{bojar-EtAl:2017:WMT1,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Graham, Yvette and Haddow, Barry and Huang, Shujian and Huck, Matthias and Koehn, Philipp and Liu, Qun and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Post, Matt and Rubino, Raphael and Specia, Lucia and Turchi, Marco},
title = {Findings of the 2017 Conference on Machine Translation (WMT17)},
booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers},
month = {September},
year = {2017},
address = {Copenhagen, Denmark},
publisher = {Association for Computational Linguistics},
pages = {169--214},
url = {http://www.aclweb.org/anthology/W17-4717}
}
wmt17_translate/cs-en (پیکربندی پیش فرض)
توضیحات پیکربندی : مجموعه داده وظایف ترجمه WMT 2017 cs-en.
حجم دانلود :
1.66 GiBحجم مجموعه داده :
2.91 GiBذخیره خودکار ( اسناد ): خیر
تقسیم ها :
| شکاف | مثال ها |
|---|---|
'test' | 3005 |
'train' | 15,851,649 |
'validation' | 2999 |
- ساختار ویژگی :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
| ویژگی | کلاس | شکل | نوع D | شرح |
|---|---|---|---|---|
| ترجمه | ||||
| cs | متن | رشته | ||
| en | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_superviseddoc ):('cs', 'en')مثالها ( tfds.as_dataframe ):
wmt17_translate/de-en
شرح پیکربندی : مجموعه داده وظیفه ترجمه WMT 2017 de-en.
حجم دانلود :
1.81 GiBحجم مجموعه داده :
1.73 GiBذخیره خودکار ( اسناد ): خیر
تقسیم ها :
| شکاف | مثال ها |
|---|---|
'test' | 3004 |
'train' | 5,906,184 |
'validation' | 2999 |
- ساختار ویژگی :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
| ویژگی | کلاس | شکل | نوع D | شرح |
|---|---|---|---|---|
| ترجمه | ||||
| de | متن | رشته | ||
| en | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_superviseddoc ):('de', 'en')مثالها ( tfds.as_dataframe ):
wmt17_translate/fi-en
توضیحات پیکربندی : مجموعه داده وظایف ترجمه WMT 2017 fi-en.
حجم دانلود :
414.10 MiBحجم مجموعه داده :
769.87 MiBذخیره خودکار ( اسناد ): خیر
تقسیم ها :
| شکاف | مثال ها |
|---|---|
'test' | 6004 |
'train' | 2,656,542 |
'validation' | 6000 |
- ساختار ویژگی :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
| ویژگی | کلاس | شکل | نوع D | شرح |
|---|---|---|---|---|
| ترجمه | ||||
| en | متن | رشته | ||
| فی | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_superviseddoc ):('fi', 'en')مثالها ( tfds.as_dataframe ):
wmt17_translate/lv-en
توضیحات پیکربندی : مجموعه داده وظایف ترجمه lv-en WMT 2017.
حجم دانلود :
161.69 MiBحجم مجموعه داده :
562.26 MiBذخیره خودکار ( اسناد ): خیر
تقسیم ها :
| شکاف | مثال ها |
|---|---|
'test' | 2001 |
'train' | 3,567,528 |
'validation' | 2003 |
- ساختار ویژگی :
Translation({
'en': Text(shape=(), dtype=string),
'lv': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
| ویژگی | کلاس | شکل | نوع D | شرح |
|---|---|---|---|---|
| ترجمه | ||||
| en | متن | رشته | ||
| lv | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_superviseddoc ):('lv', 'en')مثالها ( tfds.as_dataframe ):
wmt17_translate/ru-en
توضیحات پیکربندی : مجموعه داده وظایف ترجمه WMT 2017 ru-en.
حجم دانلود :
1.06 GiBحجم مجموعه داده :
11.18 GiBذخیره خودکار ( اسناد ): خیر
تقسیم ها :
| شکاف | مثال ها |
|---|---|
'test' | 3001 |
'train' | 25,782,720 |
'validation' | 2998 |
- ساختار ویژگی :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
| ویژگی | کلاس | شکل | نوع D | شرح |
|---|---|---|---|---|
| ترجمه | ||||
| en | متن | رشته | ||
| ru | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_superviseddoc ):('ru', 'en')مثالها ( tfds.as_dataframe ):
wmt17_translate/tr-en
توضیحات پیکربندی : مجموعه داده وظایف ترجمه WMT 2017 tr-en.
حجم دانلود :
59.32 MiBحجم مجموعه داده :
63.74 MiBذخیره خودکار ( اسناد ): بله
تقسیم ها :
| شکاف | مثال ها |
|---|---|
'test' | 3007 |
'train' | 205756 |
'validation' | 3000 |
- ساختار ویژگی :
Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
| ویژگی | کلاس | شکل | نوع D | شرح |
|---|---|---|---|---|
| ترجمه | ||||
| en | متن | رشته | ||
| tr | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_superviseddoc ):('tr', 'en')مثالها ( tfds.as_dataframe ):
wmt17_translate/zh-en
توضیحات پیکربندی : مجموعه داده وظایف ترجمه WMT 2017 zh-en.
حجم دانلود :
884.32 MiBحجم مجموعه داده :
6.43 GiBذخیره خودکار ( اسناد ): خیر
تقسیم ها :
| شکاف | مثال ها |
|---|---|
'test' | 2001 |
'train' | 25,136,609 |
'validation' | 2002 |
- ساختار ویژگی :
Translation({
'en': Text(shape=(), dtype=string),
'zh': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
| ویژگی | کلاس | شکل | نوع D | شرح |
|---|---|---|---|---|
| ترجمه | ||||
| en | متن | رشته | ||
| zh | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_superviseddoc ):('zh', 'en')مثالها ( tfds.as_dataframe ):