civil_comments

  • توضیحات :

این نسخه از مجموعه داده CivilComments دسترسی به هفت برچسب اصلی را که توسط کارگران حاشیه‌نویسی شده‌اند، فراهم می‌کند، سمیت و برچسب‌های دیگر مقداری بین 0 و 1 هستند که نشان‌دهنده کسری از حاشیه‌نویس‌هایی است که این ویژگی‌ها را به متن نظر اختصاص داده‌اند.

برچسب های دیگر فقط برای کسری از نمونه های ورودی در دسترس هستند. آنها در حال حاضر برای مجموعه داده اصلی نادیده گرفته می شوند. مجموعه CivilCommentsIdentities شامل آن برچسب‌ها می‌شود، اما فقط شامل زیرمجموعه‌ای از داده‌های همراه با آنها است. سایر ویژگی‌هایی که بخشی از نسخه اولیه CivilComments بودند، فقط در داده‌های خام گنجانده شده‌اند. برای جزئیات بیشتر در مورد ویژگی های موجود به مستندات Kaggle مراجعه کنید.

نظرات این مجموعه داده از آرشیو پلتفرم Civil Comments، یک افزونه اظهار نظر برای سایت‌های خبری مستقل آمده است. این نظرات عمومی از سال 2015 تا 2017 ایجاد شد و در حدود 50 سایت خبری انگلیسی زبان در سراسر جهان ظاهر شد. هنگامی که Civil Comments در سال 2017 تعطیل شد، آنها تصمیم گرفتند نظرات عمومی را در یک بایگانی باز ماندگار در دسترس قرار دهند تا امکان تحقیقات آینده فراهم شود. داده‌های اصلی، منتشر شده در figshare، شامل متن نظر عمومی، برخی فراداده‌های مرتبط مانند شناسه‌های مقاله، شناسه‌های انتشار، مُهرهای زمانی و برچسب‌های "مدنی" تولید شده توسط نظردهنده است، اما شامل شناسه‌های کاربر نمی‌شود. Jigsaw این مجموعه داده را با افزودن برچسب های اضافی برای سمیت، ذکر هویت و همچنین توهین مخفیانه گسترش داد. این مجموعه داده کپی دقیقی از داده های منتشر شده برای چالش Jigsaw Unintended Bias in Toxicity Classification Kaggle است. این مجموعه داده تحت CC0 منتشر شده است، همانطور که متن نظر اساسی است.

برای نظراتی که دارای شناسه والدین نیز در داده های نظرات مدنی هستند، متن نظر قبلی به عنوان ویژگی «متن_parent» ارائه می شود. توجه داشته باشید که تقسیم بندی ها بدون توجه به این اطلاعات انجام شده است، بنابراین استفاده از نظرات قبلی ممکن است برخی از اطلاعات را به بیرون درز کند. حاشیه نویس ها هنگام ساخت برچسب ها به متن اصلی دسترسی نداشتند.

  • صفحه اصلی : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

  • کد منبع : tfds.text.CivilComments

  • نسخه ها :

    • 1.0.0 : انتشار کامل اولیه.
    • 1.0.1 : برای هر نظر یک شناسه منحصر به فرد اضافه شد.
    • 1.1.0 : پیکربندی CivilCommentsCovert اضافه شد.
    • 1.1.1 : پیکربندی CivilCommentsCovert با چک جمع صحیح اضافه شد.
    • 1.1.2 : نقل قول جداگانه برای مجموعه داده CivilCommentsCovert اضافه شد.
    • 1.1.3 : تصحیح انواع شناسه از شناور به رشته.
    • 1.2.0 : ویژگی‌های متن سمی، زمینه و نظر والدین را اضافه کنید.
    • 1.2.1 : اصلاح قالب بندی نادرست در تقسیم های زمینه.
    • 1.2.2 : به روز رسانی برای منعکس کردن زمینه فقط با تقسیم قطار.
    • 1.2.3 : با رفع مشکل داده، هشدار را به CivilCommentsCovert اضافه کنید.
    • 1.2.4 (پیش‌فرض): شناسه‌های انتشارات و مُهرهای زمان نظر را اضافه کنید.
  • حجم دانلود : 427.41 MiB

  • شکل ( tfds.show_examples ): پشتیبانی نمی شود.

civil_comments/CivilComments (پیکربندی پیش فرض)

  • توضیحات پیکربندی : مجموعه CivilComments در اینجا شامل تمام داده‌ها می‌شود، اما فقط هفت برچسب اصلی (سمیت، سمیت_شدید، ناپسند، تهدید، توهین، هویت_حمله، و جنسی_صریح).

  • حجم مجموعه داده : 1.54 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 97,320
'train' 1,804,874
'validation' 97,320
  • ساختار ویژگی :
FeaturesDict({
   
'article_id': int32,
   
'created_date': string,
   
'id': string,
   
'identity_attack': float32,
   
'insult': float32,
   
'obscene': float32,
   
'parent_id': int32,
   
'parent_text': Text(shape=(), dtype=string),
   
'publication_id': string,
   
'severe_toxicity': float32,
   
'sexual_explicit': float32,
   
'text': Text(shape=(), dtype=string),
   
'threat': float32,
   
'toxicity': float32,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
article_id تانسور int32
ایجاد_تاریخ تانسور رشته
شناسه تانسور رشته
هویت_حمله تانسور float32
توهین تانسور float32
ناپسند تانسور float32
شناسه اصلی تانسور int32
متن_ پدر و مادر متن رشته
publication_id تانسور رشته
سمیت_شدید تانسور float32
جنسی_صریح تانسور float32
متن متن رشته
تهدید تانسور float32
سمیت تانسور float32
  • نقل قول :
@article{DBLP:journals/corr/abs-1903-04561,
  author    
= {Daniel Borkan and
               
Lucas Dixon and
               
Jeffrey Sorensen and
               
Nithum Thain and
               
Lucy Vasserman},
  title    
= {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               
Classification},
  journal  
= {CoRR},
  volume    
= {abs/1903.04561},
  year      
= {2019},
  url      
= {http://arxiv.org/abs/1903.04561},
  archivePrefix
= {arXiv},
  eprint    
= {1903.04561},
  timestamp
= {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    
= {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource
= {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsIdentities

  • توضیحات پیکربندی : مجموعه CivilCommentsIdentities در اینجا شامل مجموعه گسترده‌ای از برچسب‌های هویت علاوه بر هفت برچسب اصلی است. با این حال، فقط شامل زیرمجموعه (تقریبا یک چهارم) داده ها با تمام این ویژگی ها است.

  • حجم مجموعه داده : 654.97 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 21,577
'train' 405,130
'validation' 21,293
  • ساختار ویژگی :
FeaturesDict({
   
'article_id': int32,
   
'asian': float32,
   
'atheist': float32,
   
'bisexual': float32,
   
'black': float32,
   
'buddhist': float32,
   
'christian': float32,
   
'created_date': string,
   
'female': float32,
   
'heterosexual': float32,
   
'hindu': float32,
   
'homosexual_gay_or_lesbian': float32,
   
'id': string,
   
'identity_attack': float32,
   
'insult': float32,
   
'intellectual_or_learning_disability': float32,
   
'jewish': float32,
   
'latino': float32,
   
'male': float32,
   
'muslim': float32,
   
'obscene': float32,
   
'other_disability': float32,
   
'other_gender': float32,
   
'other_race_or_ethnicity': float32,
   
'other_religion': float32,
   
'other_sexual_orientation': float32,
   
'parent_id': int32,
   
'parent_text': Text(shape=(), dtype=string),
   
'physical_disability': float32,
   
'psychiatric_or_mental_illness': float32,
   
'publication_id': string,
   
'severe_toxicity': float32,
   
'sexual_explicit': float32,
   
'text': Text(shape=(), dtype=string),
   
'threat': float32,
   
'toxicity': float32,
   
'transgender': float32,
   
'white': float32,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
article_id تانسور int32
آسیایی تانسور float32
بی دین تانسور float32
دوجنس گرا تانسور float32
سیاه تانسور float32
بودایی تانسور float32
مسیحی تانسور float32
ایجاد_تاریخ تانسور رشته
زن تانسور float32
دگرجنسگرا تانسور float32
هندو تانسور float32
همجنسگرا_همجنسگرا_یا_لزبین تانسور float32
شناسه تانسور رشته
هویت_حمله تانسور float32
توهین تانسور float32
ناتوانی_ذهنی_یا_آموزشی تانسور float32
یهودی تانسور float32
لاتین تانسور float32
نر تانسور float32
مسلمان تانسور float32
ناپسند تانسور float32
other_disability تانسور float32
other_gender تانسور float32
سایر_نژاد_یا_قومیت تانسور float32
دیگر_دین تانسور float32
جهت گیری_جنسی دیگر تانسور float32
شناسه اصلی تانسور int32
متن_ پدر و مادر متن رشته
ناتوانی_فیزیکی تانسور float32
بیماری_روانی_یا_روانی تانسور float32
publication_id تانسور رشته
سمیت_شدید تانسور float32
جنسی_صریح تانسور float32
متن متن رشته
تهدید تانسور float32
سمیت تانسور float32
تغییر جنسیت تانسور float32
سفید تانسور float32
  • نقل قول :
@article{DBLP:journals/corr/abs-1903-04561,
  author    
= {Daniel Borkan and
               
Lucas Dixon and
               
Jeffrey Sorensen and
               
Nithum Thain and
               
Lucy Vasserman},
  title    
= {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               
Classification},
  journal  
= {CoRR},
  volume    
= {abs/1903.04561},
  year      
= {2019},
  url      
= {http://arxiv.org/abs/1903.04561},
  archivePrefix
= {arXiv},
  eprint    
= {1903.04561},
  timestamp
= {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    
= {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource
= {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsCovert

  • توضیحات پیکربندی : هشدار: یک مشکل بالقوه کیفیت داده در CivilCommentsCovert وجود دارد که ما فعالانه در حال رفع آن هستیم (06/28/22). داده های اساسی ممکن است تغییر کند!

مجموعه CivilCommentsCovert زیرمجموعه‌ای از CivilCommentsIdentities است که حدود 20 درصد از تقسیم‌بندی‌های قطار و آزمایش، علاوه بر سمیت و برچسب‌های هویت، بیشتر برای توهین‌های مخفیانه توضیح داده شده است. از ارزیاب‌ها خواسته شد تا نظرات را به‌عنوان یکی از صراحتاً، ضمنی، غیرمطمئن بودن یا عدم توهین‌آمیز بودن و همچنین حاوی انواع مختلف توهین‌آمیز پنهانی دسته‌بندی کنند. روش کامل حاشیه نویسی در مقاله آتی در https://sites.google.com/corp/view/hciandnlp/accepted-papers به ​​تفصیل آمده است.

  • حجم مجموعه داده : 97.83 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 2,455
'train' 48,074
  • ساختار ویژگی :
FeaturesDict({
   
'article_id': int32,
   
'asian': float32,
   
'atheist': float32,
   
'bisexual': float32,
   
'black': float32,
   
'buddhist': float32,
   
'christian': float32,
   
'covert_emoticons_emojis': float32,
   
'covert_humor': float32,
   
'covert_masked_harm': float32,
   
'covert_microaggression': float32,
   
'covert_obfuscation': float32,
   
'covert_political': float32,
   
'covert_sarcasm': float32,
   
'created_date': string,
   
'explicitly_offensive': float32,
   
'female': float32,
   
'heterosexual': float32,
   
'hindu': float32,
   
'homosexual_gay_or_lesbian': float32,
   
'id': string,
   
'identity_attack': float32,
   
'implicitly_offensive': float32,
   
'insult': float32,
   
'intellectual_or_learning_disability': float32,
   
'jewish': float32,
   
'latino': float32,
   
'male': float32,
   
'muslim': float32,
   
'not_offensive': float32,
   
'not_sure_offensive': float32,
   
'obscene': float32,
   
'other_disability': float32,
   
'other_gender': float32,
   
'other_race_or_ethnicity': float32,
   
'other_religion': float32,
   
'other_sexual_orientation': float32,
   
'parent_id': int32,
   
'parent_text': Text(shape=(), dtype=string),
   
'physical_disability': float32,
   
'psychiatric_or_mental_illness': float32,
   
'publication_id': string,
   
'severe_toxicity': float32,
   
'sexual_explicit': float32,
   
'text': Text(shape=(), dtype=string),
   
'threat': float32,
   
'toxicity': float32,
   
'transgender': float32,
   
'white': float32,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
article_id تانسور int32
آسیایی تانسور float32
بی دین تانسور float32
دوجنس گرا تانسور float32
سیاه تانسور float32
بودایی تانسور float32
مسیحی تانسور float32
covert_emoticons_emojis تانسور float32
پنهان_طنز تانسور float32
مخفی_نقاب_آزاری تانسور float32
مخفی_خراشگری تانسور float32
مخفی_ابهام سازی تانسور float32
پنهان_سیاسی تانسور float32
پنهان_طعنه تانسور float32
ایجاد_تاریخ تانسور رشته
به صراحت_توهین آمیز تانسور float32
زن تانسور float32
دگرجنسگرا تانسور float32
هندو تانسور float32
همجنسگرا_همجنسگرا_یا_لزبین تانسور float32
شناسه تانسور رشته
هویت_حمله تانسور float32
ضمنی_توهین آمیز تانسور float32
توهین تانسور float32
ناتوانی_ذهنی_یا_آموزشی تانسور float32
یهودی تانسور float32
لاتین تانسور float32
نر تانسور float32
مسلمان تانسور float32
نه_توهین آمیز تانسور float32
not_sure_ofensive تانسور float32
ناپسند تانسور float32
other_disability تانسور float32
other_gender تانسور float32
سایر_نژاد_یا_قومیت تانسور float32
دیگر_دین تانسور float32
جهت گیری_جنسی دیگر تانسور float32
شناسه اصلی تانسور int32
متن_ پدر و مادر متن رشته
ناتوانی_فیزیکی تانسور float32
بیماری_روانی_یا_روانی تانسور float32
publication_id تانسور رشته
سمیت_شدید تانسور float32
جنسی_صریح تانسور float32
متن متن رشته
تهدید تانسور float32
سمیت تانسور float32
تغییر جنسیت تانسور float32
سفید تانسور float32
  • نقل قول :
@inproceedings{lees-etal-2021-capturing,
    title
= "Capturing Covertly Toxic Speech via Crowdsourcing",
    author
= "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh"
,
    booktitle
= "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month
= apr,
    year
= "2021",
    address
= "Online",
    publisher
= "Association for Computational Linguistics",
    url
= "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages
= "14--20"
}

civil_comments/CivilCommentsToxicSpans

  • توضیحات پیکربندی : CivilComments Toxic Spans زیرمجموعه ای از CivilComments هستند که در سطح دهانه برچسب گذاری می شوند - شاخص های تمام مرزهای کاراکترها (نقاط کد یونیکد) که توسط اکثر حاشیه نویس ها به عنوان سمی برچسب گذاری شده بودند در یک ویژگی 'spans' برگردانده می شوند.

  • حجم مجموعه داده : 5.81 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 2000
'train' 7939
'validation' 682
  • ساختار ویژگی :
FeaturesDict({
   
'article_id': int32,
   
'created_date': string,
   
'id': string,
   
'parent_id': int32,
   
'parent_text': Text(shape=(), dtype=string),
   
'publication_id': string,
   
'spans': Tensor(shape=(None,), dtype=int32),
   
'text': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
article_id تانسور int32
ایجاد_تاریخ تانسور رشته
شناسه تانسور رشته
شناسه اصلی تانسور int32
متن_ پدر و مادر متن رشته
publication_id تانسور رشته
دهانه می کند تانسور (هیچ یک،) int32
متن متن رشته
  • نقل قول :
@inproceedings{pavlopoulos-etal-2021-semeval,
    title
= "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author
= "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle
= "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month
= aug,
    year
= "2021",
    address
= "Online",
    publisher
= "Association for Computational Linguistics",
    url
= "https://aclanthology.org/2021.semeval-1.6",
    doi
= "10.18653/v1/2021.semeval-1.6",
    pages
= "59--69",
}

civil_comments/CivilCommentsInContext

  • توضیحات پیکربندی : CivilComments in Context زیرمجموعه ای از CivilComments است که با در دسترس قرار دادن متن والد در اختیار برچسب گذاران برچسب گذاری شده است. این شامل یک ویژگی contextual_toxicity است.

  • حجم مجموعه داده : 9.63 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 9,969
  • ساختار ویژگی :
FeaturesDict({
   
'article_id': int32,
   
'contextual_toxicity': float32,
   
'created_date': string,
   
'id': string,
   
'identity_attack': float32,
   
'insult': float32,
   
'obscene': float32,
   
'parent_id': int32,
   
'parent_text': Text(shape=(), dtype=string),
   
'publication_id': string,
   
'severe_toxicity': float32,
   
'sexual_explicit': float32,
   
'text': Text(shape=(), dtype=string),
   
'threat': float32,
   
'toxicity': float32,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
article_id تانسور int32
زمینه_سمی تانسور float32
ایجاد_تاریخ تانسور رشته
شناسه تانسور رشته
هویت_حمله تانسور float32
توهین تانسور float32
ناپسند تانسور float32
شناسه اصلی تانسور int32
متن_ پدر و مادر متن رشته
publication_id تانسور رشته
سمیت_شدید تانسور float32
جنسی_صریح تانسور float32
متن متن رشته
تهدید تانسور float32
سمیت تانسور float32
  • نقل قول :
@misc{pavlopoulos2020toxicity,
    title
={Toxicity Detection: Does Context Really Matter?},
    author
={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year
={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}