- תיאור :
Sentiment140 מאפשר לך לגלות את הסנטימנט של מותג, מוצר או נושא בטוויטר.
הנתונים הם CSV עם אייקונים שהוסרו. פורמט קובץ הנתונים כולל 6 שדות:
- הקוטביות של הציוץ (0 = שלילי, 2 = ניטרלי, 4 = חיובי)
- המזהה של הציוץ (2087)
- תאריך הציוץ (שבת 16 במאי 23:58:44 UTC 2009)
- השאילתה (lyx). אם אין שאילתה, אז הערך הזה הוא NO_QUERY.
- המשתמש שצייץ (robotickilldozr)
- הטקסט של הציוץ (Lyx מגניב)
למידע נוסף, עיין בעיתון טוויטר סנטימנט סיווג עם פיקוח מרחוק בכתובת https://cs.stanford.edu/people/alecmgo/papers/TwitterDistantSupervision09.pdf
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : http://help.sentiment140.com/home
קוד מקור :
tfds.datasets.sentiment140.Builderגרסאות :
-
1.0.0(ברירת מחדל): אין הערות שחרור.
-
גודל הורדה :
77.59 MiBגודל ערכת נתונים:
305.13 MiBשמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'test' | 498 |
'train' | 1,600,000 |
- מבנה תכונה :
FeaturesDict({
'date': Text(shape=(), dtype=string),
'polarity': int32,
'query': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'user': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
| תכונה | מעמד | צוּרָה | Dtype | תיאור |
|---|---|---|---|---|
| FeaturesDict | ||||
| תַאֲרִיך | טֶקסט | חוּט | ||
| קוטביות | מוֹתֵחַ | int32 | ||
| שאילתא | טֶקסט | חוּט | ||
| טֶקסט | טֶקסט | חוּט | ||
| מִשׁתַמֵשׁ | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_superviseddoc ):('text', 'polarity')איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@ONLINE {Sentiment140,
author = "Go, Alec and Bhayani, Richa and Huang, Lei",
title = "Twitter Sentiment Classification using Distant Supervision",
year = "2009",
url = "http://help.sentiment140.com/home"
}