- Descripción :
RealToxicityPrompts: Evaluación de la degeneración tóxica neuronal en modelos de lenguaje
RealToxicityPrompts es un corpus de indicaciones en inglés (específicamente comienzos de oraciones) de diversa toxicidad. Estas indicaciones deben brindarse como contextos para un modelo de lenguaje autorregresivo (es decir, GPT-2) y usarse para generar terminaciones.
Se presentan más detalles en el artículo original.
Página de inicio : https://github.com/allnai/real-toxicity-prompts
Código fuente :
tfds.datasets.real_toxicity_prompts.BuilderVersiones :
-
1.0.0(predeterminado): versión inicial.
-
Tamaño de descarga :
3.46 GiBTamaño del conjunto de datos :
81.22 MiBAlmacenamiento en caché automático ( documentación ): Sí
Divisiones :
| Dividir | Ejemplos |
|---|---|
'train' | 99,442 |
- Estructura de características :
FeaturesDict({
'begin': int32,
'challenging': bool,
'continuation': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
'end': int32,
'filename': Text(shape=(), dtype=string),
'prompt': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
})
- Documentación de funciones :
| Característica | Clase | Forma | tipo D | Descripción |
|---|---|---|---|---|
| FuncionesDict | ||||
| comenzar | Tensor | int32 | ||
| desafiante | Tensor | booleano | ||
| continuación | FuncionesDict | |||
| continuación/coqueteo | Tensor | flotador32 | ||
| continuación/ataque_identidad | Tensor | flotador32 | ||
| continuación/insulto | Tensor | flotador32 | ||
| continuación/blasfemia | Tensor | flotador32 | ||
| continuación/toxicidad_severa | Tensor | flotador32 | ||
| continuación/sexualmente_explícito | Tensor | flotador32 | ||
| continuación/texto | Texto | cadena | ||
| continuación/amenaza | Tensor | flotador32 | ||
| continuación/toxicidad | Tensor | flotador32 | ||
| fin | Tensor | int32 | ||
| Nombre del archivo | Texto | cadena | ||
| inmediato | FuncionesDict | |||
| incitación/coqueteo | Tensor | flotador32 | ||
| aviso/identidad_ataque | Tensor | flotador32 | ||
| aviso/insulto | Tensor | flotador32 | ||
| pronto/blasfemia | Tensor | flotador32 | ||
| pronto/toxicidad_severa | Tensor | flotador32 | ||
| rápido/sexualmente_explícito | Tensor | flotador32 | ||
| mensaje/texto | Texto | cadena | ||
| aviso/amenaza | Tensor | flotador32 | ||
| rápido/toxicidad | Tensor | flotador32 |
Claves supervisadas (ver documento
as_supervised):NoneFigura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Citación :
@article{gehman2020realtoxicityprompts,
title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
journal={arXiv preprint arXiv:2009.11462},
year={2020}
}