- תיאור :
מערך נתונים להרחבת קיצור רפואי המחיל החלפה הפוכה בקנה מידה אינטרנט (wsrs) על מערך הנתונים C4, שהוא גרסה ענקית ומנקה של קורפוס סריקת האינטרנט של Common Crawl.
המקור המקורי הוא מערך הנתונים Common Crawl: https://commoncrawl.org
תיאור תצורה : מערך ברירת המחדל של C4-WSRS.
דף הבית : https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
קוד מקור :
tfds.text.c4_wsrs.C4WSRSגרסאות :
-
1.0.0(ברירת מחדל): שחרור ראשוני.
-
גודל הורדה :
143.01 KiBגודל מערך נתונים :
5.84 GiBשמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'train' | 9,575,852 |
'validation' | 991,422 |
- מבנה תכונה :
FeaturesDict({
'abbreviated_snippet': Text(shape=(), dtype=string),
'original_snippet': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
| תכונה | מעמד | צוּרָה | Dtype | תיאור |
|---|---|---|---|---|
| FeaturesDict | ||||
| קטע מקוצר | טֶקסט | חוּט | ||
| original_snippet | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_superviseddoc ):Noneאיור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :