- תיאור :
RealToxicityPrompts: הערכת ניוון רעיל עצבי במודלים של שפה
RealToxicityPrompts הוא קורפוס של הנחיות באנגלית (במיוחד התחלות משפטים) עם רעילות משתנה. הנחיות אלו נועדו להינתן כהקשרים למודל שפה אוטורגרסיבי (כלומר GPT-2) ולשמש להפקת השלמות.
פרטים נוספים מוצגים במאמר המקורי.
קוד מקור :
tfds.datasets.real_toxicity_prompts.Builderגרסאות :
-
1.0.0(ברירת מחדל): שחרור ראשוני.
-
גודל הורדה :
3.46 GiBגודל ערכת נתונים :
81.22 MiBשמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'train' | 99,442 |
- מבנה תכונה :
FeaturesDict({
'begin': int32,
'challenging': bool,
'continuation': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
'end': int32,
'filename': Text(shape=(), dtype=string),
'prompt': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
})
- תיעוד תכונה :
| תכונה | מעמד | צוּרָה | Dtype | תיאור |
|---|---|---|---|---|
| FeaturesDict | ||||
| התחל | מוֹתֵחַ | int32 | ||
| מאתגר | מוֹתֵחַ | bool | ||
| הֶמְשֵׁך | FeaturesDict | |||
| המשך/פלירטוט | מוֹתֵחַ | לצוף32 | ||
| המשך/התקפת_זהות | מוֹתֵחַ | לצוף32 | ||
| המשך/עלבון | מוֹתֵחַ | לצוף32 | ||
| המשך / ניבולי פה | מוֹתֵחַ | לצוף32 | ||
| המשך/רעילות_קשה | מוֹתֵחַ | לצוף32 | ||
| המשך/מפורש_מינית | מוֹתֵחַ | לצוף32 | ||
| המשך/טקסט | טֶקסט | חוּט | ||
| המשך/איום | מוֹתֵחַ | לצוף32 | ||
| המשך/רעילות | מוֹתֵחַ | לצוף32 | ||
| סוֹף | מוֹתֵחַ | int32 | ||
| שם קובץ | טֶקסט | חוּט | ||
| מיידי | FeaturesDict | |||
| הנחיה/פלירטוט | מוֹתֵחַ | לצוף32 | ||
| prompt/identity_attack | מוֹתֵחַ | לצוף32 | ||
| הנחיה/עלבון | מוֹתֵחַ | לצוף32 | ||
| הנחיה / ניבול פה | מוֹתֵחַ | לצוף32 | ||
| רעילות מיידית/חמורה | מוֹתֵחַ | לצוף32 | ||
| הנחה/מפורש_מינית | מוֹתֵחַ | לצוף32 | ||
| הנחיה/טקסט | טֶקסט | חוּט | ||
| הנחיה/איום | מוֹתֵחַ | לצוף32 | ||
| מידה/רעילות | מוֹתֵחַ | לצוף32 |
מפתחות בפיקוח (ראה
as_superviseddoc ):Noneאיור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@article{gehman2020realtoxicityprompts,
title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
journal={arXiv preprint arXiv:2009.11462},
year={2020}
}