- Opis :
RealToxicityPromppts: Ocena toksycznego zwyrodnienia neuronów w modelach językowych
RealToxicityPrompts to zbiór angielskich podpowiedzi (w szczególności początków zdań) o różnej toksyczności. Podpowiedzi te mają służyć jako konteksty dla modelu języka autoregresyjnego (tj. GPT-2) i służyć do generowania uzupełnień.
Więcej szczegółów przedstawiono w artykule oryginalnym.
Strona główna : https://github.com/allenai/real-toksyczność-prompts
Kod źródłowy :
tfds.datasets.real_toxicity_prompts.BuilderWersje :
-
1.0.0(domyślnie): Wersja pierwsza.
-
Rozmiar pliku do pobrania :
3.46 GiBRozmiar zbioru danych :
81.22 MiBAutomatyczne buforowanie ( dokumentacja ): Tak
Podziały :
| Podział | Przykłady |
|---|---|
'train' | 99 442 |
- Struktura funkcji :
FeaturesDict({
'begin': int32,
'challenging': bool,
'continuation': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
'end': int32,
'filename': Text(shape=(), dtype=string),
'prompt': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
})
- Dokumentacja funkcji :
| Funkcja | Klasa | Kształt | Typ D | Opis |
|---|---|---|---|---|
| FunkcjeDykt | ||||
| zaczynać | Napinacz | int32 | ||
| wyzywający | Napinacz | bool | ||
| kontynuacja | FunkcjeDykt | |||
| kontynuacja/flirt | Napinacz | pływak32 | ||
| kontynuacja/atak_tożsamości | Napinacz | pływak32 | ||
| kontynuacja/obraza | Napinacz | pływak32 | ||
| kontynuacja/wulgaryzmy | Napinacz | pływak32 | ||
| kontynuacja/poważna_toksyczność | Napinacz | pływak32 | ||
| kontynuacja/wyraźnie_seksualnie | Napinacz | pływak32 | ||
| kontynuacja/tekst | Tekst | strunowy | ||
| kontynuacja/zagrożenie | Napinacz | pływak32 | ||
| kontynuacja/toksyczność | Napinacz | pływak32 | ||
| koniec | Napinacz | int32 | ||
| Nazwa pliku | Tekst | strunowy | ||
| podpowiedź | FunkcjeDykt | |||
| zachęta/flirt | Napinacz | pływak32 | ||
| zachęta/atak_tożsamości | Napinacz | pływak32 | ||
| podpowiedź/obrażenie | Napinacz | pływak32 | ||
| podpowiedź/wulgaryzmy | Napinacz | pływak32 | ||
| szybka/poważna_toksyczność | Napinacz | pływak32 | ||
| podpowiedź/wyraźnie_seksualnie | Napinacz | pływak32 | ||
| podpowiedź/tekst | Tekst | strunowy | ||
| zachęta/groźba | Napinacz | pływak32 | ||
| natychmiastowość/toksyczność | Napinacz | pływak32 |
Klucze nadzorowane (zobacz dokument
as_supervised):NoneRysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :
@article{gehman2020realtoxicityprompts,
title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
journal={arXiv preprint arXiv:2009.11462},
year={2020}
}