- توضیحات :
یک مجموعه داده گسترش اختصار پزشکی که جایگزینی معکوس در مقیاس وب (wsrs) را برای مجموعه داده C4 اعمال می کند، که یک نسخه عظیم و پاک شده از پیکره خزیدن وب Common Crawl است.
منبع اصلی مجموعه داده Common Crawl است: https://commoncrawl.org
توضیحات پیکربندی : مجموعه داده پیش فرض C4-WSRS.
صفحه اصلی : https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
کد منبع :
tfds.text.c4_wsrs.C4WSRSنسخه ها :
-
1.0.0(پیش فرض): انتشار اولیه.
-
حجم دانلود :
143.01 KiBحجم مجموعه داده :
5.84 GiBذخیره خودکار ( اسناد ): خیر
تقسیم ها :
| شکاف | مثال ها |
|---|---|
'train' | 9,575,852 |
'validation' | 991,422 |
- ساختار ویژگی :
FeaturesDict({
'abbreviated_snippet': Text(shape=(), dtype=string),
'original_snippet': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
| ویژگی | کلاس | شکل | نوع D | شرح |
|---|---|---|---|---|
| FeaturesDict | ||||
| abbreviated_snippet | متن | رشته | ||
| قطعه_اصلی | متن | رشته |
کلیدهای نظارت شده (به
as_superviseddoc مراجعه کنید):Noneشکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :