Una ola de resultados extraños desanimó a algunos seguidores futboleros que quisieron predecir los resultados del Mundial ¿Sabe más el que tiene más aciertos? ¿ Cómo se pueden mejorar los modelos predictivos en el fútbol? Hablamos con tres expertos que realizaron estimaciones de Rusia 2018 para tratar de entender por qué es tan difícil predecir en él fútbol.

 

Ismael Gómez Schmidt: “Siempre es importante abordar estos temas desde el punto de vista de las probabilidades y no de las predicciones”

Ismael Gómez Schmidt (@ismaelgomezs en Twitter) es una de las personas detrás del sitio especializado DatoFutbol. Formado en Ciencia de Datos realizó un modelo de estimaciones que se actualizaron a medida que avanzaba el Mundial, el modelo fue armado y procesado en RStudio, el modelo se basó en el siguiente grupo de variables:

a) Probabilidades de resultados globales en cada partido (gana Equipo1, empate, gana Equipo2)
b) Clasificados a las distintas rondas luego de la fase de grupos (octavos, cuartos, semis, final y campeón).
Inicialmente consideré las siguientes variables:

  • Ranking FIFA
  • Promedio de edad de la plantilla y su dispersión
  • Porcentaje de jugadores que juegan en las 5 principales ligas de Europa (Premier, LaLiga, SerieA, Bundesliga, Ligue 1) respecto al total de la plantilla
  • Confederación
  • Localía del equipo anfitrión

Entonces, la base de datos utilizada cuenta con un valor asociado a estas variables según fecha para cada equipo en cada partido desde USA 1994 a Brasil 2014.

Lo que siguió fue el ajuste de estos datos a un modelo de regresión con distribución de Poisson para estimar la probabilidad que tiene cada equipo de anotar X goles en cada partido según su rival, creando la matriz de probabilidades:

Dicha matriz nos permite construir las probabilidades para cada resultado global, que en el caso del ejemplo es: 84% gana Bélgica, 11% Empate y 5% Panamá.

Sin embargo, la efectividad del modelo anduvo cerca del 60%, lo cual puede sonar relativamente bajo teniendo en cuenta la cantidad de datos que existen de un evento como este e incluso es menor que otros modelos desarrollados por Datofutbol como el predictivo de altos niveles de acierto que armaron de la Copa Libertadores. Al ser consultado al respecto Ismael nos comenta:

“Pienso que hay varios factores en juego, principalmente (y potenciados entre ellos) es que en el fútbol, en comparación a otros deportes colectivos (basquet, voley, hockey, handball, etc.) hay muy pocos goles. Históricamente en partidos entre selecciones lo más común es que hayan entre 1 a 3 goles por partido, lo que ha ido convergiendo a 2 goles en las últimas cuatro décadas, con un promedio de goles cercano a 2.5 (puntos rojos en la segunda imagen) y medianas de 2 goles (puntos verdes). Antes de la década de los 80 había más goles. Por lo tanto, actualmente en muchos partidos el resultado global se define poco margen”. Esto último coincide con el análisis de Nicolás Garcia Aramouni que publicamos recientemente.

 

 

“El otro factor tiene que ver con el azar o con las circunstancias de cada partido en el fútbol: un penal, una expulsión, un arquero con un mal día, pueden marcar significativamente el resultado del partido, puesto que son determinantes en los goles. Y  al haber pocos de estos factores, en ocasiones puede derivar en un cambio posterior significativo en el marcador. Hay que ver además el impacto que puede tener el VAR, ya que se están cobrando más penales ; hay más tiempo de descuento al final de los partidos y no había registros anteriores como para poder tenerlo como variable a la hora de armar el modelo.
Respecto al modelo de Copa Libertadores, sí tuvo mejor efectividad. Sin embargo, tenemos que considerar que la edición 2018 estuvo especialmente regida por los equipos con mayor valor económico en comparación a ediciones anteriores, donde se tenía efectividades del orden del 71-72 % considerando esta variable, por lo que no podría afirmar que los clasificados a segunda ronda en mundiales son siempre más sorpresivos que en Copa Libertadores.”

¿Cómo pensás que se pueden mejorar estos modelos?

Tenemos un desafío y una oportunidad para mejorar los modelos, ya que se puede profundizar en características propias del juego de cada jugador, como sus habilidades técnicas, físicas u otras, según su posición en el campo, según sus últimos partidos, lesiones recientes, separar entre 11 titulares y el resto, etc.
Además, buscar la manera de incorporar algunos elementos objetivos que pueden caracterizar las variables psicológicas o emocionales podría ponderar de óptima manera los resultados, en el mejor de los casos.
De todos modos, siempre es importante abordar estos temas desde el punto de vista de las probabilidades y no de predicciones, teniendo en cuenta que en el fútbol pueden pasar muchas cosas improbables. E incluso tener en cuenta que la gran potencialidad del aumento de la cantidad y calidad de datos que disponemos hoy en día va más por el lado de enriquecer el análisis y le aprendizaje del fútbol, más que en predicciones.

 

Eugenia Rocca: “Es más fácil predecir si un cliente abandona un banco que si un equipo va a pasar la fase de grupos”

Eugenia Rocca es uruguaya, forma parte de las R Ladies ,un grupo de mujeres investigadores que se especializa en el lenguaje de programación R y tiene sedes en muchas ciudades alrededor del mundo. Actualmente trabaja para IBM. Rocca desarrolló un ejercicio de estimaciones focalizado en el grupo de Uruguay, utilizando la plataforma Watson para correr el modelo: “No soy una seguidora del fútbol al detalle, pero tenía que presentarme en un congreso y es un tema que capta la atención y más todavía durante un mundial, además de que permite explicar algunas cuestiones complejas de los modelos en un contexto que la audiencia puede comprender de que se trata”

El modelo se basa en el calculo de probabilidades de que la selección uruguaya triunfe en cada uno de los partidos:
“Usé una distribución de Poisson, que describe la probabilidad del número de eventos dentro de un período de tiempo específico con una tasa de promedio conocida. El modelo se basa en el número de goles marcados/concedidos por cada equipo. Los equipos que han tenido mayor puntaje en el pasado tiene una mayor probabilidad de marcar goles en el futuro. En el caso del Mundial esto a veces es más complejo por la estructura del mundial, distinto es si pensamos en torneos como Apertura / Clausura de Uruguay, torneos que vemos se desarrollan anualmente donde podemos tener muchos más información y no tan espaciados como los Mundiales, donde además podemos tener cambios de equipo por completo.”

“Como sólo calculé la probabilidad de Uruguay y eran eventos específicos, no realice ninguna simulación de resultados. Si hubiera hecho este ejercicio para todos los equipos en todas las fases una vez terminado el modelo, ahí sí lo simulo para ver el resultado más probable con una confianza del 95%”. Algo así hicieron (con otras variables) en el Instituto de Calculo de la Facultad de Ciencias Exactas de la UBA.

El modelo se acota a la selección del Maestro Tabárez por cuestiones de tiempo más que de recursos (la plataforma de IBM esta orientada al procesamiento de grandes volúmenes de información): “Consulte a varias personas que siguen el fútbol al detalle, fundamentalmente me apoye en mi hermano que trabajó un tiempo en  AZSportech, una empresa especializada en datos deportivos . La decisión más polémica fue utilizar datos de las eliminatorias del mundial de Brasil en el caso de la selección rusa ya que por ser local no había tenido que participar en la competencia previa al mundial”

Realizaste modelos y estimaciones para otras industrias ¿Qué es más difícil, predecir si un cliente va a dejar de operar con un determinado Banco o si una selección pasa de fase en el mundial?

Suponiendo que el Banco te entregue una base de datos muy detallada, completa y actualizada, es bastante más simple desarrollar un modelo del tipo CHURN (que estiman el porcentaje de probabilidad que un cliente deje de operar) para un banco que estimar con certeza si un equipo pasa de ronda. El fútbol mantiene un alto componente de azar y los mundiales en particular tienen pocos partidos como para desarrollar estimaciones sobre una base estadística robusta.

 

Nico García Aramouni: “De todas las variables utilizadas el ranking FIFA suele explicar mejor que otras el resultado entre dos países”

Invitado por este sitio, Nicolas Garcia Aramouni realizó un modelo predictivo de los resultados del mundial. Su investigación puede verse en este post. Conversamos también con él para obtener algunos detalles de como fue construida.

¿Cómo se armó el modelo y qué herramientas se usaron para procesarlo ? ¿Cuál es la efectividad del modelo?

La tarea de armar un modelo predictivo, y en especial para eventos deportivos como el Mundial, representa un desafío enorme ya que exige armar una representación de la realidad y de la historia para poder predecir el futuro con datos del pasado. En la era de los datos, conseguir información no es una limitación. Es más, los inputs más importantes para el trabajo (resultados históricos de partidos y la historia de los ranking FIFA) fueron conseguidos después de unos pocos clics en la famosa web de competencias de Machine Learning y Data Mining, Kaggle. Procesarlos tampoco es una tarea imposible y en particular elegimos RStudio, una de las herramientas más utilizadas en el mercado, para poder trabajar con una gran cantidad de datos de una forma rápida y eficiente.
Tras el armado del modelo, uno tiene la ansiedad de descubrir su efectividad  y, aunque la performance ha sido inferior a la esperada (alrededor 55%), lo que ha sucedido no deja de dar algunas enseñanzas. Nuestra predicción es “rígida” en el sentido que da una sola predicción para cada partido y, por lo tanto, es muy dependiente del resultado de cada encuentro y del fixture. En pocas palabras, la victoria de México sobre Alemania puede llegar a perjudicar la predicción. Al armar un modelo, uno supone que en promedio debería funcionar y predecir correctamente: es decir que, si Alemania y México jugaran 100 veces, en la mayoría debería ganar el actual campeón del mundo. Sin embargo, el hecho de que los equipos jueguen una sola vez y de que, además, existen muchos factores imposibles de predecir y que son propios de cada partido o de la misma suerte, hacen que aún en modelos sofisticados sea muy difícil realizar una predicción excelente. Teniendo en cuenta esto, en vez de predecir una vez el fixture entero del Mundial, se podría simular la competencia 1000 veces y calcular la probabilidad de que cada equipo sea campeón, dejando así un modelo más robusto.

-De todas las variables que tomaron para armar el modelo ¿Cual pensás que es la más determinante ó la que tiene mayor peso?

De todas las variables utilizadas, la que más poder predictivo tenía en el armado del modelo (o la que tenía el p-valor más bajo) fue la diferencia de ranking FIFA entre las selecciones. Como se dijo anteriormente, esta variable en promedio suele explicar mejor que otras el resultado entre dos países. Sin embargo, como se ha visto varias veces en Rusia 2018, no estamos exentos a otros factores externos, difíciles de modelar que afectan y tienen una gran influencia en los partidos de fútbol .

 

Matías Conde

Data Scientist. Responsable de Analítica Sports Data.

Twitter