Les proponemos revisar un modelo desarrollado en R para estimar las posibilidades de pasar de fase de cada uno de los equipos que participa en la Copa Libertadores. R es un lenguaje para el procesamiento de información que se utiliza habitualmente en la industria del análisis de datos. Permite realizar desde análisis estadísticos clásicos hasta modelos predictivos complejos.

(Por Ismael Gomez Schmidt*, Analista Invitado).- A pocas horas del inicio de la fase de grupos de la edición 2019 de la copa Libertadores los invito a darle una mirada a los escenarios más probables de clasificación a octavos de final según un análisis basado en datos históricos.

Dicho análisis ya lo hice para la edición del año anterior, logrando un 88% de efectividad al comparar los clasificados reales con aquellos que tenían más probabilidad de hacerlo en cada grupo según el ajuste del modelo (para ver más detalles de esto pueden ver este hilo de Twitter).

El modelo incluye datos de las ediciones realizadas entre 2011 y 2018, considerando principalmente la variable “valor económico del plantel en el mercado [millones de EUR] centrado respecto al promedio de su grupo en la copa”, cuya información fue recabada desde el sitio web Transfermarkt. Con esto, se aplica una regresión logística (binomial) que modela la probabilidad de pasar o no pasar la fase de grupos.

Cabe mencionar que, si bien la importancia de dicha variable fue particularmente fuerte el año pasado (88%), históricamente este valor anda cerca del 70%. De todas maneras, esto es bastante alto y por lo tanto nos permite tener una noción acabada de cuáles equipos “deberían” clasificar.

Contexto con datos históricos

A continuación, pueden revisar una visualización interactiva que integra todos los datos considerados (2011-2018) junto con los respectivos resultados del modelo ajustado. En el eje X se mapea la variable económica, en el eje Y la probabilidad normalizada por grupo y con color si un equipo clasificó (azul) o no (rojo).

Situando el cursor sobre un punto específico se despliega la información detallada correspondiente, incluyendo nombre del club, año, grupo, valor económico centrado, probabilidad estimada, puntos y resultado obtenido. Además, puedes seleccionar un equipo de preferencia en el menú para la facilitar su identificación con color negro. Por defecto marqué el actual campeón: River Plate.

.

Es posible observar la típica curva “S” de este tipo de regresiones, aunque esta no es perfecta como en el post del año pasado puesto que acá por simplificación ya apliqué la normalización de probabilidades por grupo, de modo que entre los 4 equipos de cada grupo sumen el 100%.

Se aprecia que, a partir de aproximadamente los 10 millones de EUR sobre el promedio del grupo o, en otras palabras, tener igual o más de un 35% de probabilidades (normalizada) de clasificar, dicha clasificación se ha concretado en la mayoría de los casos.

Los fracasos más llamativos corresponden a Palmeiras el 2016, Flamengo el 2012 y 2017 e Independiente de Avellaneda el 2011; todos con planteles valorizados en más de 20 millones de EUR sobre el promedio de sus respectivos grupos, pero aún así no clasificaron.

Ronaldinho no alcanzó para que el Flamengo pase de fase en 2012

En contraste, las hazañas más notables desde este punto de vista son las clasificaciones de LDU de Quito el 2011, Emelec el 2012, Wilstermann el 2017 y Universitario de Sucre el 2015; todos valorizados en menos de 20 millones de EUR bajo el promedio de sus respectivos grupos.

La base de datos utilizada y el código de la app interactiva la puedes revisar acá.

Estimación 2019

Ahora usaré los datos históricos para estimar las probabilidades de pasar la fase de grupos para los participantes de la edición 2019 según los valores económicos de sus planteles observados en el sitio Transfermarkt con fecha del 1 de marzo.

Como verán en la tabla final, existe una gran disparidad entre los equipos desde este punto de vista. Por ejemplo, existe una diferencia de 108.3 millones de EUR entre el máximo (Palmeiras con 112) y el mínimo valor (Wilstermann con 3.7). En general, como ha sido la tónica de los últimos años, destacan los equipos brasileños con los planteles más caros, seguidos luego de los argentinos.

A continuación, el código en R que permite cargar los datos, manipularlos, ajustar el modelo y usarlo para estimar los resultados que se aprecian en la tabla final. Los archivos CSV se pueden descargar desde acá.

# Ajusta modelo con datos antiguos (2011-2018)
old_data <- read.csv("data_liberta_2011_18.csv", stringsAsFactors=F, encoding="utf8")
fit <- glm(factor(clas_factor) ~ Value_centered, old_data, family='binomial')

# Nuevos datos
new_data <- read.csv("grupos_2019.csv", stringsAsFactors=F, encoding="utf8")
library(dplyr)

# Centra valores $ respecto a grupos
mean_values <- new_data %>% group_by(Year, Group) %>% summarise(mean_value=mean(Value))
new_data <- new_data %>% inner_join(mean_values, by="Group") %>% 
                     mutate(Value_centered = Value - mean_value)

# Usa modelo para estimar probabilidades independientes de datos 2019
new <- data.frame(Value_centered = new_data$Value_centered)
p <- predict(fit, newdata = new, type="response")
new_data <- new_data %>% mutate(P_ind=p)

# Normaliza probabilidades por grupo y rankear de mayor a menor
sum_values <- new_data %>% group_by(Group) %>% summarise(sum_p=sum(P_ind))
new_data <- new_data %>% inner_join(sum_values, by="Group") %>% 
                     mutate(P_norm = round(P_ind/sum_p*100, 1)) %>%
                     select(Group, Club, Value, Value_centered, P_ind, P_norm) %>%
                     arrange(Group, desc(P_norm))

Los resultados generan esta tabla:

Algunos comentarios sobres los resultados

En la mayoría de los grupos hay un claro favorito con cerca del doble probabilidades de clasificación que su más próximo rival (Cruzeiro, Godoy Cruz, Flamengo, Atlético Mineiro, Palmeiras, Boca Juniors y Gremio), los que deberían quedarse con el primer lugar de sus grupos.

La excepción está en el grupo A, donde los dos favoritos están muy cerca (River Plate e Internacional) y deberían pelearse el primer lugar.

En los demás grupos tenemos distintos escenarios:

  • 1) Una pelea ajustada por el segundo lugar entre dos equipos (B y D);
  • 2) Una pelea ajustada por el segundo lugar entre tres equipos (C y E), pudiendo llamarse “grupos de la muerte”; y
  • 3) El segundo favorito también se escapa respecto a los demás competidores (F, G y H).

 

Al finalizar la fase de grupos haremos el recuento de efectividad de las estimaciones y comentamos de los resultados.

 

*Ismael Gomez Schmidt es Data Scientist y esta al frente de la cuenta @DatoFutbol_cl

Información Adicional: El flujo de trabajo completo con los datos fue realizado con la herramienta RStudio y en particular la visualización interactiva con Shiny.