- Description :
RealToxicityPrompts : évaluation de la dégénérescence neuronale toxique dans les modèles de langage
RealToxicityPrompts est un corpus d'invites en anglais (en particulier des débuts de phrases) de toxicité variable. Ces invites sont destinées à être données comme contextes à un modèle de langage autorégressif (c'est-à-dire GPT-2) et utilisées pour générer des complétions.
Plus de détails sont présentés dans le document original.
Page d'accueil : https://github.com/allenai/real-toxicity-prompts
Code source :
tfds.datasets.real_toxicity_prompts.BuilderVersions :
-
1.0.0(par défaut) : version initiale.
-
Taille du téléchargement :
3.46 GiBTaille de l'ensemble de données :
81.22 MiBMise en cache automatique ( documentation ) : Oui
Divisions :
| Diviser | Exemples |
|---|---|
'train' | 99 442 |
- Structure des fonctionnalités :
FeaturesDict({
'begin': int32,
'challenging': bool,
'continuation': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
'end': int32,
'filename': Text(shape=(), dtype=string),
'prompt': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
})
- Documentation des fonctionnalités :
| Fonctionnalité | Classe | Forme | Type D | Description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| commencer | Tenseur | int32 | ||
| difficile | Tenseur | bouffon | ||
| continuation | FonctionnalitésDict | |||
| continuation/flirt | Tenseur | flotteur32 | ||
| continuation/identité_attaque | Tenseur | flotteur32 | ||
| suite/insulte | Tenseur | flotteur32 | ||
| suite/blasphème | Tenseur | flotteur32 | ||
| continuation/toxicité_sévère | Tenseur | flotteur32 | ||
| continuation/sexuellement_explicite | Tenseur | flotteur32 | ||
| suite/texte | Texte | chaîne | ||
| continuation/menace | Tenseur | flotteur32 | ||
| continuation/toxicité | Tenseur | flotteur32 | ||
| fin | Tenseur | int32 | ||
| nom de fichier | Texte | chaîne | ||
| rapide | FonctionnalitésDict | |||
| invite/flirt | Tenseur | flotteur32 | ||
| invite/identité_attaque | Tenseur | flotteur32 | ||
| invite/insulte | Tenseur | flotteur32 | ||
| invite/blasphème | Tenseur | flotteur32 | ||
| invite/toxicité_sévère | Tenseur | flotteur32 | ||
| prompt/sexuellement_explicite | Tenseur | flotteur32 | ||
| invite/texte | Texte | chaîne | ||
| invite/menace | Tenseur | flotteur32 | ||
| invite/toxicité | Tenseur | flotteur32 |
Clés supervisées (Voir doc
as_supervised) :NoneFigure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ) :
- Citation :
@article{gehman2020realtoxicityprompts,
title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
journal={arXiv preprint arXiv:2009.11462},
year={2020}
}