- Descripción :
Sentiment140 le permite descubrir el sentimiento de una marca, producto o tema en Twitter.
Los datos son un CSV con los emoticones eliminados. El formato de archivo de datos tiene 6 campos:
- la polaridad del tweet (0 = negativo, 2 = neutral, 4 = positivo)
- la identificación del tweet (2087)
- la fecha del tweet (sábado 16 de mayo 23:58:44 UTC 2009)
- la consulta (lyx). Si no hay consulta, entonces este valor es NO_QUERY.
- el usuario que tuiteó (robotickilldozr)
- el texto del tweet (Lyx mola)
Para obtener más información, consulte el artículo Clasificación de sentimiento de Twitter con supervisión a distancia en https://cs.stanford.edu/people/alecmgo/papers/TwitterDistantSupervision09.pdf
Documentación adicional : Explore en Papers With Code
Página de inicio: http://help.sentiment140.com/home
Código fuente :
tfds.datasets.sentiment140.BuilderVersiones :
-
1.0.0(predeterminado): Sin notas de la versión.
-
Tamaño de la descarga :
77.59 MiBTamaño del conjunto de datos :
305.13 MiBAlmacenamiento automático en caché ( documentación ): No
Divisiones :
| Separar | Ejemplos |
|---|---|
'test' | 498 |
'train' | 1,600,000 |
- Estructura de características :
FeaturesDict({
'date': Text(shape=(), dtype=string),
'polarity': int32,
'query': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'user': Text(shape=(), dtype=string),
})
- Documentación de características :
| Rasgo | Clase | Forma | Tipo D | Descripción |
|---|---|---|---|---|
| CaracterísticasDict | ||||
| fecha | Texto | cadena | ||
| polaridad | Tensor | int32 | ||
| consulta | Texto | cadena | ||
| texto | Texto | cadena | ||
| usuario | Texto | cadena |
Teclas supervisadas (Ver
as_supervised):('text', 'polarity')Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@ONLINE {Sentiment140,
author = "Go, Alec and Bhayani, Richa and Huang, Lei",
title = "Twitter Sentiment Classification using Distant Supervision",
year = "2009",
url = "http://help.sentiment140.com/home"
}