real_toxicity_prompts

Description :

RealToxicityPrompts : évaluation de la dégénérescence neuronale toxique dans les modèles de langage

RealToxicityPrompts est un corpus d'invites en anglais (en particulier des débuts de phrases) de toxicité variable. Ces invites sont destinées à être données comme contextes à un modèle de langage autorégressif (c'est-à-dire GPT-2) et utilisées pour générer des complétions.

Plus de détails sont présentés dans le document original.

Page d'accueil : https://github.com/allenai/real-toxicity-prompts
Code source : tfds.datasets.real_toxicity_prompts.Builder
Versions :
- 1.0.0 (par défaut) : version initiale.
Taille du téléchargement : 3.46 GiB
Taille de l'ensemble de données : 81.22 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	99 442

Structure des fonctionnalités :

FeaturesDict({
    'begin': int32,
    'challenging': bool,
    'continuation': FeaturesDict({
        'flirtation': float32,
        'identity_attack': float32,
        'insult': float32,
        'profanity': float32,
        'severe_toxicity': float32,
        'sexually_explicit': float32,
        'text': Text(shape=(), dtype=string),
        'threat': float32,
        'toxicity': float32,
    }),
    'end': int32,
    'filename': Text(shape=(), dtype=string),
    'prompt': FeaturesDict({
        'flirtation': float32,
        'identity_attack': float32,
        'insult': float32,
        'profanity': float32,
        'severe_toxicity': float32,
        'sexually_explicit': float32,
        'text': Text(shape=(), dtype=string),
        'threat': float32,
        'toxicity': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Type D
	FonctionnalitésDict
commencer	Tenseur	int32
difficile	Tenseur	bouffon
continuation	FonctionnalitésDict
continuation/flirt	Tenseur	flotteur32
continuation/identité_attaque	Tenseur	flotteur32
suite/insulte	Tenseur	flotteur32
suite/blasphème	Tenseur	flotteur32
continuation/toxicité_sévère	Tenseur	flotteur32
continuation/sexuellement_explicite	Tenseur	flotteur32
suite/texte	Texte	chaîne
continuation/menace	Tenseur	flotteur32
continuation/toxicité	Tenseur	flotteur32
fin	Tenseur	int32
nom de fichier	Texte	chaîne
rapide	FonctionnalitésDict
invite/flirt	Tenseur	flotteur32
invite/identité_attaque	Tenseur	flotteur32
invite/insulte	Tenseur	flotteur32
invite/blasphème	Tenseur	flotteur32
invite/toxicité_sévère	Tenseur	flotteur32
prompt/sexuellement_explicite	Tenseur	flotteur32
invite/texte	Texte	chaîne
invite/menace	Tenseur	flotteur32
invite/toxicité	Tenseur	flotteur32

Clés supervisées (Voir doc as_supervised ) : None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ) :

Citation :

@article{gehman2020realtoxicityprompts,
  title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
  author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
  journal={arXiv preprint arXiv:2009.11462},
  year={2020}
}

real_toxicity_prompts Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

RealToxicityPrompts : évaluation de la dégénérescence neuronale toxique dans les modèles de langage

real_toxicity_prompts