- विवरण :
Statmt.org के डेटा के आधार पर डेटासेट का अनुवाद करें।
कई डेटा स्रोतों के संयोजन का उपयोग करके संस्करण विभिन्न वर्षों के लिए मौजूद हैं। आधार wmt_translate आपको कस्टम tfds.translate.wmt.WmtConfig बनाकर अपना स्वयं का डेटा/भाषा युग्म चुनने के लिए अपना स्वयं का कॉन्फ़िगरेशन बनाने की अनुमति देता है।
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
स्रोत कोड :
tfds.translate.Wmt16Translateसंस्करण :
-
1.0.0(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से
download_config.manual_dir(डिफ़ॉल्ट रूप से~/tensorflow_datasets/downloads/manual/) में डाउनलोड करना होगा:
यहाँ कुछ wmt कॉन्फिग के लिए मैन्युअल डाउनलोड की आवश्यकता होती है। डाउनलोड करने के लिए सटीक पथ (और फ़ाइल नाम) देखने के लिए कृपया wmt.py देखें।चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@InProceedings{bojar-EtAl:2016:WMT1,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Graham, Yvette and Haddow, Barry and Huck, Matthias and Jimeno Yepes, Antonio and Koehn, Philipp and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Neveol, Aurelie and Neves, Mariana and Popel, Martin and Post, Matt and Rubino, Raphael and Scarton, Carolina and Specia, Lucia and Turchi, Marco and Verspoor, Karin and Zampieri, Marcos},
title = {Findings of the 2016 Conference on Machine Translation},
booktitle = {Proceedings of the First Conference on Machine Translation},
month = {August},
year = {2016},
address = {Berlin, Germany},
publisher = {Association for Computational Linguistics},
pages = {131--198},
url = {http://www.aclweb.org/anthology/W/W16/W16-2301}
}
wmt16_translate/cs-en (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फ़िगरेशन विवरण : WMT 2016 cs-en अनुवाद कार्य डेटासेट।
डाउनलोड आकार :
1.57 GiBडेटासेट का आकार :
7.56 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 2,999 |
'train' | 52,335,651 |
'validation' | 2,656 |
- फ़ीचर संरचना :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| अनुवाद | ||||
| सीएस | मूलपाठ | डोरी | ||
| एन | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervisedदस्तावेज़ देखें):('cs', 'en')उदाहरण ( tfds.as_dataframe ):
wmt16_translate/de-en
कॉन्फ़िग विवरण : WMT 2016 डी-एन ट्रांसलेशन टास्क डेटासेट।
डाउनलोड आकार :
1.57 GiBडेटासेट का आकार :
1.38 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 2,999 |
'train' | 4,548,885 |
'validation' | 2,169 |
- फ़ीचर संरचना :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| अनुवाद | ||||
| डे | मूलपाठ | डोरी | ||
| एन | मूलपाठ | डोरी |
पर्यवेक्षित कुंजी (
as_supervisedदस्तावेज़ देखें):('de', 'en')उदाहरण ( tfds.as_dataframe ):
wmt16_translate/fi-hi
कॉन्फ़िगरेशन विवरण : WMT 2016 फाई-एन अनुवाद कार्य डेटासेट।
डाउनलोड आकार :
260.51 MiBडेटासेट का आकार :
624.31 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 6,000 |
'train' | 2,073,394 |
'validation' | 1,370 |
- फ़ीचर संरचना :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| अनुवाद | ||||
| एन | मूलपाठ | डोरी | ||
| फाई | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervisedदस्तावेज़ देखें):('fi', 'en')उदाहरण ( tfds.as_dataframe ):
wmt16_translate/ro-en
कॉन्फ़िगरेशन विवरण : WMT 2016 ro-en अनुवाद कार्य डेटासेट।
डाउनलोड आकार :
273.83 MiBडेटासेट का आकार :
194.35 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल जब
shuffle_files=False(ट्रेन)विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 1,999 |
'train' | 610,320 |
'validation' | 1,999 |
- फ़ीचर संरचना :
Translation({
'en': Text(shape=(), dtype=string),
'ro': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| अनुवाद | ||||
| एन | मूलपाठ | डोरी | ||
| आरओ | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervisedदस्तावेज़ देखें):('ro', 'en')उदाहरण ( tfds.as_dataframe ):
wmt16_translate/ru-hi
कॉन्फ़िगरेशन विवरण : WMT 2016 ru-en अनुवाद कार्य डेटासेट।
डाउनलोड आकार :
993.38 MiBडेटासेट का आकार :
854.44 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 2,998 |
'train' | 2,516,162 |
'validation' | 2,818 |
- फ़ीचर संरचना :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| अनुवाद | ||||
| एन | मूलपाठ | डोरी | ||
| आरयू | मूलपाठ | डोरी |
पर्यवेक्षित कुंजी (
as_supervisedदस्तावेज़ देखें):('ru', 'en')उदाहरण ( tfds.as_dataframe ):
wmt16_translate/tr-hi
कॉन्फ़िगरेशन विवरण : WMT 2016 tr-en अनुवाद कार्य डेटासेट।
डाउनलोड आकार :
59.32 MiBडेटासेट का आकार :
63.21 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 3,000 |
'train' | 205,756 |
'validation' | 1,001 |
- फ़ीचर संरचना :
Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| अनुवाद | ||||
| एन | मूलपाठ | डोरी | ||
| टीआर | मूलपाठ | डोरी |
पर्यवेक्षित कुंजी (
as_supervisedदस्तावेज़ देखें):('tr', 'en')उदाहरण ( tfds.as_dataframe ):