- Описание :
RealToxicityPrompts: оценка нейротоксической дегенерации в языковых моделях
RealToxicityPrompts — это набор подсказок на английском языке (в частности, начала предложений) различной токсичности. Эти подсказки предназначены для использования в качестве контекста для модели авторегрессионного языка (т. е. GPT-2) и использования для генерации дополнений.
Более подробная информация представлена в оригинальной статье .
Домашняя страница : https://github.com/allenai/real-токсичность-подсказки.
Исходный код :
tfds.datasets.real_toxicity_prompts.BuilderВерсии :
-
1.0.0(по умолчанию): первоначальный выпуск.
-
Размер загрузки :
3.46 GiBРазмер набора данных :
81.22 MiBАвтокэширование ( документация ): Да
Расколы :
| Расколоть | Примеры |
|---|---|
'train' | 99 442 |
- Структура функции :
FeaturesDict({
'begin': int32,
'challenging': bool,
'continuation': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
'end': int32,
'filename': Text(shape=(), dtype=string),
'prompt': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
})
- Функциональная документация :
| Особенность | Сорт | Форма | Дтип | Описание |
|---|---|---|---|---|
| ВозможностиDict | ||||
| начинать | Тензор | int32 | ||
| испытывающий | Тензор | логическое значение | ||
| продолжение | ВозможностиDict | |||
| продолжение/флирт | Тензор | поплавок32 | ||
| продолжение/identity_attack | Тензор | поплавок32 | ||
| продолжение/оскорбление | Тензор | поплавок32 | ||
| продолжение/ненормативная лексика | Тензор | поплавок32 | ||
| продолжение/серьезная_токсичность | Тензор | поплавок32 | ||
| продолжение/сексуально_явно | Тензор | поплавок32 | ||
| продолжение/текст | Текст | нить | ||
| продолжение/угроза | Тензор | поплавок32 | ||
| продолжение/токсичность | Тензор | поплавок32 | ||
| конец | Тензор | int32 | ||
| имя файла | Текст | нить | ||
| быстрый | ВозможностиDict | |||
| подсказка/флирт | Тензор | поплавок32 | ||
| подсказка/identity_attack | Тензор | поплавок32 | ||
| подсказка/оскорбление | Тензор | поплавок32 | ||
| подсказка/ненормативная лексика | Тензор | поплавок32 | ||
| подсказка/серьезная_токсичность | Тензор | поплавок32 | ||
| подсказка/сексуально_явно | Тензор | поплавок32 | ||
| подсказка/текст | Текст | нить | ||
| подсказка/угроза | Тензор | поплавок32 | ||
| быстрота/токсичность | Тензор | поплавок32 |
Контролируемые ключи (см. документ
as_supervised):NoneРисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@article{gehman2020realtoxicityprompts,
title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
journal={arXiv preprint arXiv:2009.11462},
year={2020}
}