- विवरण :
एक चिकित्सा संक्षिप्त नाम विस्तार डेटासेट जो C4 डेटासेट पर वेब-स्केल रिवर्स प्रतिस्थापन (wsrs) लागू करता है, जो कि कॉमन क्रॉल के वेब क्रॉल कॉर्पस का एक विशाल, साफ संस्करण है।
मूल स्रोत कॉमन क्रॉल डेटासेट है: https://commoncrawl.org
कॉन्फ़िगरेशन विवरण : डिफ़ॉल्ट C4-WSRS डेटासेट।
मुखपृष्ठ : https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
स्रोत कोड :
tfds.text.c4_wsrs.C4WSRSसंस्करण :
-
1.0.0(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
डाउनलोड आकार :
143.01 KiBडेटासेट का आकार :
5.84 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'train' | 9,575,852 |
'validation' | 991,422 |
- फ़ीचर संरचना :
FeaturesDict({
'abbreviated_snippet': Text(shape=(), dtype=string),
'original_snippet': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| विशेषताएं डिक्ट | ||||
| abbreviated_snippet | मूलपाठ | डोरी | ||
| original_snippet | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_superviseddoc देखें):Noneचित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :