- opis :
Zestaw danych rozszerzeń skrótów medycznych, który stosuje odwrotne podstawienie w skali sieci (wsrs) do zbioru danych C4, który jest kolosalną, oczyszczoną wersją korpusu indeksowania sieci Common Crawl.
Oryginalnym źródłem jest zbiór danych Common Crawl: https://commoncrawl.org
Opis konfiguracji: domyślny zestaw danych C4-WSRS.
Strona główna : https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
Kod źródłowy :
tfds.text.c4_wsrs.C4WSRSWersje :
-
1.0.0(domyślnie): Wersja początkowa.
-
Rozmiar pliku do pobrania :
143.01 KiBRozmiar zestawu danych :
5.84 GiBAutomatyczne buforowanie ( dokumentacja ): Nie
Podziały :
| Podział | Przykłady |
|---|---|
'train' | 9575852 |
'validation' | 991422 |
- Struktura funkcji :
FeaturesDict({
'abbreviated_snippet': Text(shape=(), dtype=string),
'original_snippet': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
| Funkcja | Klasa | Kształtować się | Typ D | Opis |
|---|---|---|---|---|
| FunkcjeDict | ||||
| skrócony_fragment | Tekst | strunowy | ||
| oryginalny_fragment | Tekst | strunowy |
Klucze nadzorowane (Zobacz dokument
as_supervised):NoneRysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :