c4_wsrs

opis :

Zestaw danych rozszerzeń skrótów medycznych, który stosuje odwrotne podstawienie w skali sieci (wsrs) do zbioru danych C4, który jest kolosalną, oczyszczoną wersją korpusu indeksowania sieci Common Crawl.

Oryginalnym źródłem jest zbiór danych Common Crawl: https://commoncrawl.org

Opis konfiguracji: domyślny zestaw danych C4-WSRS.
Strona główna : https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
Kod źródłowy : tfds.text.c4_wsrs.C4WSRS
Wersje :
- 1.0.0 (domyślnie): Wersja początkowa.
Rozmiar pliku do pobrania : 143.01 KiB
Rozmiar zestawu danych : 5.84 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :

Podział	Przykłady
`'train'`	9575852
`'validation'`	991422

Struktura funkcji :

FeaturesDict({
    'abbreviated_snippet': Text(shape=(), dtype=string),
    'original_snippet': Text(shape=(), dtype=string),
})

Dokumentacja funkcji :

Funkcja	Klasa	Typ D
	FunkcjeDict
skrócony_fragment	Tekst	strunowy
oryginalny_fragment	Tekst	strunowy

Klucze nadzorowane (Zobacz dokument as_supervised ): None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):

Cytat :

c4_wsrs Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

c4_wsrs/default (domyślna konfiguracja)

c4_wsrs