Analítica Sports Data ofrece un modelo predictivo para Rusia 2018 y lo justifica. Pasen y vean.

Corría el año 2010 y mientras todos intentábamos disfrutar el Mundial de Sudáfrica había alguien que ya sabía como iba a terminar: el pulpo Paul. Este animal, que vivió en las instalaciones del Sea Life Centre de Oberhausen, Alemania, acertó todas sus predicciones sobre los resultados de la selección germana y la final del torneo más importante del mundo. Su precisión le valió el reconocimiento mediático a lo largo del planeta y una estatua que se levantó en su homenaje tras su fallecimiento.

El célebre pulpo Paul

Sin embargo, para intentar predecir los resultados de los Mundiales, no es necesario tener un pulpo en casa o apelar a conocimientos psíquicos. Con datos, y un modelo que acompañe, podemos hacer lo mismo. Justamente, el objetivo de este trabajo fue intentar hacer un modelo estadístico que prediga los resultados del Mundial 2018, tomando datos sobre partidos de fútbol oficiales (o sea, sin amistosos) desde 2006 y estudiando el efecto que tienen ciertas variables en la cantidad de goles que hace una selección en un partido. Utilizamos como principal base el informe que Goldman Sachs presentó en 2014, el cual predecía que Argentina y Brasil llegarían a la final, con Alemania perdiendo en semifinales contra el equipo local. Teniendo en cuenta algunas críticas a lo planteado por esta institución financiera (por ejemplo, se utilizan datos de los partidos internacionales jugados desde 1960 para predecir el resultado del mundial de 2014, lo que lleva a pensar que el poder predictivo de los partidos que fueron jugados hace más de 50 años no es muy alto), se armó un modelo “mejorado” para estimar la performance de cada país y se tomaron varias variables explicativas. Personalmente, creo que se pueden agrupar las variables en tres grandes grupos: situación del partido, situación del equipo y calidad de las selecciones. En todos los casos, se intentó seleccionar más de un tipo de dato para poder captar de forma más robusta cada una de estas tres aristas. Además, el hecho de que haya diez variables que determinen el resultado de un partido y que se ataque esto de varias perspectivas le suma calidad al análisis.

Variables sobre el estado del partido:

  • Si el partido internacional se jugó en un Mundial. Teniendo en cuenta que hay países que suelen tener una excelente performance en este tipo de torneos (ej. Brasil), puede tener un efecto importante en la performance de un equipo. Todos los modelos vistos tienen una variable de este tipo
  • Si el partido se juega en el país del equipo (la localía puede tener un efecto positivo). También suele estar en todos los modelos vistos, por cuestiones lógicas.
  • Si el partido se juega en el continente del equipo (por ejemplo, hasta Alemania en Brasil 2014 ningún país europeo se había coronado en un Mundial en América). Nos pareció una variable interesante que el modelo de Goldman Sachs incluye. Teniendo en cuenta que, de los campeones mundiales, muy pocos han sido fuera de su continente de origen, puede llegar a tener un efecto interesante. Esta variable no ha sido incluida en el modelo planteado por la Facultad de Ciencias Exactas de la UBA.
  • Si el partido en cuestión fue un partido de eliminación (octavos de final, cuartos de final, semifinal, partido por el tercer puesto, final) en un torneo continental o un Mundial (siempre se dice que existen equipos/selecciones “coperos”). Esta variable no fue incluida por Goldman Sachs (lo cual nos parece un error), pero una variante de esto fue tenida en cuenta por el modelo de Exactas. Ellos le dan más importancia a unos partidos que a otros, lo cual es una propuesta válida y muy interesante para encarar el problema, nosotros lo que hemos hecho es intentar estimar el efecto diferencial que tiene que un partido sea en un mundial para la performance de un equipo.
Alemania en Brasil 2014: primer campeón europeo en América

Variables sobre el estado del equipo:

  • Promedio de goles que anotó el equipo en los últimos 5 partidos internacionales oficiales (si el equipo viene en racha, es posible que continúe). Puede llegar a ser un atributo interesante que puede marcar el estado inmediato del seleccionado en cuestión. Fue incluida por el modelo de Goldman Sachs pero no por el modelo de Exactas.
  • Promedio de goles que le hicieron al equipo en los últimos 5 partidos internacionales sin contar los amistosos (si al equipo le vienen metiendo muchos goles es posible que meta pocos). Situación idéntica a la variable anterior
  • Puesto en el que quedó el país en las últimas eliminatorias mundialistas: consideramos que es un buen indicador de la situación general del equipo en sí, ya que fue el torneo más reciente que se jugó y se supone que con jugadores similares. A modo de ejemplo, podemos suponer que si quisiéramos estimar la performance de Argentina en el Mundial 2010 (donde clasificamos con el agónico gol de Palermo contra Perú) debería ser peor a la de Brasil 2014, cuando clasificamos primeros. Calculamos esta variable en términos relativos, es decir, en qué posición terminó las eliminatorias el país en relación al total de países que participaron de ese torneo. Esto es porque en cada continente, el total de países que compiten por las eliminatorias es distinto. Ninguno de los modelos vistos incluyó esta variable.

Variables sobre la calidad de los equipos:

  • Cantidad de jugadores del equipo del país que fueron seleccionados en el último equipo ideal FIFA XI (tener a un jugador del nivel de Messi influye en la probabilidad de ganar de un equipo, tener dos “Messis” debería tener un efecto mayor). Esta variable no fue incluida en ninguno de los modelos vistos. Creemos que muestran el efecto que puede tener jugadores de elite en la performance de un equipo (difícil es imaginar que sin Messi hubiéramos llegado a la final del Mundial pasado).
  • Diferencia en el ranking FIFA entre el equipo y su contrincante (esto ayuda a medir la diferencia de calidad de los dos equipos). A diferencia del modelo de Goldman Sachs, que toma el ranking ELO (que considera partidos desde 1960), utilizamos el ranking FIFA que utiliza los resultados de los últimos cuatro años, y ayuda a visibilizar mejor la diferencia de calidad actual entre los equipos. El modelo de la Facultad de Exactas no incluyó variables que computen la diferencia de calidad en los equipos.

Una vez que obtuvimos todos los datos y un modelo para cada país (ver notas al final de la nota para mayor detalle), se pueden evaluar los datos correspondientes al 2018 (sobre posición en las eliminatorias, ranking FIFA, promedio de goles, etc.) para intentar predecir primero, cada partido de la etapa de grupos el Mundial estimando la cantidad de goles de cada equipo y, luego, después de obtener las tablas de grupos, predecir la etapa de eliminación. A diferencia de los modelos de Goldman Sachs y de Exactas, lo que hicimos fue armar una función lineal con coeficientes definidos para poder estimar los goles de cada equipo, con lo cual no existe variabilidad en los resultados de lo que planteamos. Tanto Goldman Sachs como el modelo de Exactas definen los resultados a través de simulaciones, por lo que el resultado de una corrida del modelo es distinto a otro. Esto se debe a la naturaleza de nuestro modelo, ya que los coeficientes se calculan sólo una vez y no cambian y los inputs que se toman para predecir los partidos, tampoco (por ejemplo, la diferencia del ranking entre España y Portugal va a ser la misma durante todo el mundial). Recordando la clase de matemática, para calcular la cantidad de goles de un equipo se debe evaluar la función calculada, multiplicando y sumando valores y coeficientes. Nuestro modelo da como predicción un número con una gran cantidad de decimales, por lo que, para no perder interpretabilidad, se tomó el redondeo de dicha predicción para los partidos de grupos. A modo de ejemplo, teniendo en cuenta las variables antes mencionadas, el modelo arroja que el partido inaugural entre Rusia y Arabia Saudita resultará en un triunfo para el equipo asiático por 2 a 0. A continuación se presentan las estimaciones para cada uno de los partidos de las etapas de grupos (click en la imagen para agrandar):

 

 

El siguiente detalle incluye las posiciones finales de cada grupo en base a los partidos estimados previamente:

 

Teniendo en cuenta estos resultados, se armaron los cruces de octavos de final, y se continuó prediciendo hasta llegar a predecir el campeón del Mundial. Para los partidos de eliminación, no se tomó el redondeo de la predicción, sino la predicción con todos los decimales necesarios para poder definir un ganador (sería prácticamente imposible que la predicción de goles de dos equipos distintos de igual si se toman en cuenta los decimales y, además, el redondeo podría arrojar un empate).

Según este modelo, se repetiría la final de Corea Japón 2002, lo que haría que Brasil conquiste su sexta corona mundialista y dejaría a Alemania en la puerta de empatar al seleccionado sudamericano en cantidad de Mundiales. En el caso de Argentina, el equipo germano volvería a eliminarnos, esta vez en semifinales, y perderíamos contra Francia en el partido por el tercer puesto. Sin embargo, en un hipotético encuentro entre Messi y Cristiano Ronaldo en cuartos de final, sería el rosarino el vencedor, lo que representaría una alegría adicional para los que vivimos por estas latitudes.
Por más que, dentro de todo el modelo da resultados bastante verosímiles, no deja de tener algunas limitaciones técnicas y teóricas. A modo de ejemplo, tiene una performance heterogénea en los distintos países (explica el 49% de la variabilidad de los resultados de Bélgica, pero aproximadamente el 10% para los resultados de Islandia), lo cual hace que sea una representación mejor para unos países que para otros. Por otro lado, existen variables como la cantidad de jugadores lesionados, la valoración de mercado de cada selección o la cantidad de jugadores de una nación que juegan en las 5 ligas importantes que también pueden estar explicando los resultados, pero que no han sido incluidas. Además, en el deporte hay cierto componente “aleatorio” o de suerte, que no puede ser captado por ningún modelo estadístico y puede tener influencia. Teniendo más recursos, podrían incluirse otras variables como las mencionadas, o plantear un modelo más “flexible” (nuestro modelo supone un comportamiento lineal entre cantidad de goles y variables explicativas) que admita simulaciones u otras prácticas más robustas.
Es verdad, cualquier modelo va a tener sus limitaciones y su forma de poder mejorarlos. Sin embargo, los datos y el hecho de poder extraer patrones y valor de ellos, nos permite tomar mejores decisiones y predicciones que lo que haríamos con nuestra propia intuición o de las que haría un pulpo hambriento en Alemania (o al menos eso espero).

NOTA

En este caso se obtuvo un modelo lineal, calculado con una regresión por Mínimos Cuadrados Ordinarios, por lo que se obtuvo una ecuación del tipo:

AGRADECIMIENTOS

Eugenia Irala y a Natalia Schiavone, compañeras de la facultad que contribuyeron en la realización del modelo y a Magdalena Cornejo, profesora de Estadística, que nos entusiasmó con un divertido trabajo práctico.

Nicolás García Aramouni

Analista Invitado