- Tanım :
 
RealToxicityPrompts: Dil Modellerinde Nöral Toksik Dejenerasyonun Değerlendirilmesi
RealToxicityPrompts, değişen toksisiteye sahip İngilizce istemlerin (özellikle cümle başlangıçlarının) bir topluluğudur. Bu istemlerin, bir otoregresif dil modeline (örn. GPT-2) bağlam olarak verilmesi ve tamamlamaların oluşturulması için kullanılması amaçlanmıştır.
Daha fazla ayrıntı orijinal makalede sunulmaktadır.
Ana sayfa : https://github.com/allenai/real-toxicity-prompts
Kaynak kodu :
tfds.datasets.real_toxicity_prompts.BuilderSürümler :
-  
1.0.0(varsayılan): İlk sürüm. 
-  
 İndirme boyutu :
3.46 GiBVeri kümesi boyutu :
81.22 MiBOtomatik önbelleğe alınmış ( belgeler ): Evet
Bölünmeler :
| Bölmek | Örnekler | 
|---|---|
 'train' | 99.442 | 
- Özellik yapısı :
 
FeaturesDict({
    'begin': int32,
    'challenging': bool,
    'continuation': FeaturesDict({
        'flirtation': float32,
        'identity_attack': float32,
        'insult': float32,
        'profanity': float32,
        'severe_toxicity': float32,
        'sexually_explicit': float32,
        'text': Text(shape=(), dtype=string),
        'threat': float32,
        'toxicity': float32,
    }),
    'end': int32,
    'filename': Text(shape=(), dtype=string),
    'prompt': FeaturesDict({
        'flirtation': float32,
        'identity_attack': float32,
        'insult': float32,
        'profanity': float32,
        'severe_toxicity': float32,
        'sexually_explicit': float32,
        'text': Text(shape=(), dtype=string),
        'threat': float32,
        'toxicity': float32,
    }),
})
- Özellik belgeleri :
 
| Özellik | Sınıf | Şekil | Dtipi | Tanım | 
|---|---|---|---|---|
| ÖzelliklerDict | ||||
| başlamak | Tensör | int32 | ||
| zorlu | Tensör | bool | ||
| devam | ÖzelliklerDict | |||
| devam/flört | Tensör | kayan nokta32 | ||
| devamı/identity_attack | Tensör | kayan nokta32 | ||
| devam/hakaret | Tensör | kayan nokta32 | ||
| devamı/küfür | Tensör | kayan nokta32 | ||
| devam/şiddetli_toksisite | Tensör | kayan nokta32 | ||
| devamı/sexally_explicit | Tensör | kayan nokta32 | ||
| devam/metin | Metin | sicim | ||
| devam/tehdit | Tensör | kayan nokta32 | ||
| devam/toksisite | Tensör | kayan nokta32 | ||
| son | Tensör | int32 | ||
| dosya adı | Metin | sicim | ||
| çabuk | ÖzelliklerDict | |||
| istem/flört | Tensör | kayan nokta32 | ||
| istem/identity_attack | Tensör | kayan nokta32 | ||
| istem/hakaret | Tensör | kayan nokta32 | ||
| istem/küfür | Tensör | kayan nokta32 | ||
| hızlı/şiddetli_toksisite | Tensör | kayan nokta32 | ||
| istem/cinsel açıdan_açık | Tensör | kayan nokta32 | ||
| bilgi istemi/metin | Metin | sicim | ||
| uyarı/tehdit | Tensör | kayan nokta32 | ||
| hızlı/toksisite | Tensör | kayan nokta32 | 
Denetlenen anahtarlar (
as_supervisedbelgesine bakın):NoneŞekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):
- Alıntı :
 
@article{gehman2020realtoxicityprompts,
  title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
  author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
  journal={arXiv preprint arXiv:2009.11462},
  year={2020}
}