Recopilando tweets y utilizando algoritmos de deep learning desarrollados por Google, un estadistico argentino presentó un módelo de análisis de sentimiento de los partidos del seleccionado de Sampaoli.

El trabajo de Nicolás Dagosta permite analizar los cambios de humor de los seguidores argentinos en la red social del pajarito, se trata de una aplicación de lo que se conoce como análisis de sentimiento (sentiment analysis), una metodología habitual de “social listening” pero raramente utilizada en eventos deportivos de este tipo.

¿Cómo se construye el análisis?

“Mediante la API de twitter para desarrolladores se descargaron todos los comentarios para el día entero del partido. De esta forma se construyen las categorías Previa y Post que reúnen todos los comentarios fuera de partido y los específicos para cada momento del partido fueron consolidados en grupos de a 10 minutos” nos comenta Nicolás, licenciado en estadística y a cargo del equipo de ciencia de datos del Banco Comafi.

“La selección de comentarios se realizó tomando hashtags representativos (#ArgentinaIslandia, #sampaoli, #Messi, #VamosArgentina, etc ) y oficiales FIFA (#ARGISL y sus variantes). Debido a que por seguridad no se pueden georeferenciar a los comentarios, le pedimos a Twitter que sean en español para achicar el campo de análisis y beneficiados por el idioma levantar el supuesto que si están en castellano son comentarios mayormente  de argentinos o de hinchas de la selección.”

La clave en estos desarrollos, donde el algoritmo a aplicar esta probado en su potencia y capacidad, esta en la previa, el llamado pre-procesamiento de datos que “limpia” el input a analizar y se aclaran las determinaciones tomadas sobre el set de datos. En este trabajo esta fase consistió en:

  • Eliminar comentarios vacíos (mayormente imagenes sin comentario).
  • Limpiar emojis o emoticones.
  • Limpiar los re-tweets para bajar el volumen de comentarios y se asociar al comentario original la cantidad de retweets (esto luego se usara para ponderar, en este caso darle mayor peso a aquellos tweets con mayor cantidad de RT)
  • Verificar la cantidad de tweets que emitía un usuario durante el día, para tratar de detectar periodistas o cadenas informativas dando información minuto a minuto (irrelevante para el análisis de sentimiento). De esta forma analizando en las frecuencias de comentarios del universo seleccionado (apoyado en un histograma) se decidió que usuarios que emiten más de 10 tweets serian eliminados del análisis.

Los gráficos muestran la proporción de tweets negativos del partido Argentina – Islandia, detallando los segmentos de tiempo determinados, cuantificando la expectativa previa, el entusiasmo por el gol, el desencanto y las dudas posteriores al empate, el aliento en el segmento final del partido y la marcada decepción con el resultado final:

¿Cómo se define un tweet negativo?

Ante la inmediatez del análisis y los escasos desarrollos de lexicones en español, la opción que tomó Nicolás en este trabajo fue utilizar directamente el algorimo desarrollado por Google: “El modelo consta de una red neuronal recurrente. Básicamente lo que hacen estas redes es tener memoria de largo plazo. Son excelentes para entender secuencias o progresiones en el tiempo. Por eso para entender la positividad o negatividad de una frase son excelentes, porque artificialmente (y con limitaciones) ponen en contexto cada palabra.”

Esta última aclaración es clave, ya que es de esta forma como el algoritmo entiende si un “no” delante de un “bien” es positivo o negativo, por ejemplo “no jugaron bien”. Esa interacción entre términos puede lograrse utilizando ese tipo de redes: “Las redes neuronales son algoritmos de Deep learning, modelos no supervisados lo que significa que no necesitan al humano para la construcción de variables. Le das el input como esta y solas entienden como se relacionan los datos. Ojo, siempre hace falta un analista para marcar el target, que es básicamente decirles esta frase es negativa en la etapa de entrenamiento.”

Sin embargo, el módelo tiene limitaciones y es siguiendo las buenas prácticas de este tipo de desarrollos, Nicolás aclara “El uso de ironias no se pueden detectar, el modelo de Google no es perfecto pero funciona bastante bien”.

En un contexto donde los seguidores tienen cada vez peso en las decisiones de asociaciones nacionales y clubes, este tipo de trabajos iran ganando espacio en el corto plazo a la vez que estos primeros desarrollos adquieren una mayor dimensión.

Matías Conde

Data Analyst. Responsable de Analítica Sports Data.

Twitter