Por Nicolás García Aramouni *

Al revisar la lista de todos los jugadores que participan en al menos un minuto de juego durante la temporada 2017-18 de la NBA (disponible en Basketball Reference), es común decir “este es un jugador de élite”, “este es un jugador” de rol “, o” este es alguien que suele jugar el tiempo  basura “. Sin embargo, teniendo en cuenta que existen más de 500 basquetbolistas y que existen más de 25 variables por las cuales se puede comparar, resulta difícil armar un criterio homogéneo o ser muy potente. ¿Qué métricas son las más importantes? ¿En cuántos grupos separamos a los jugadores? Muchas preguntas surgen al intentar hacer ejercicio y, con algo de suerte, basándonos en técnicas de machine learning (aprendizaje automático)

¿Qué se puede hacer para resolver este problema?
Como se mencionó, es difícil pensar en un criterio homogéneo y riguroso para poder separar a los más de 500 jugadores de la NBA. En este sentido, el algoritmo que puede utilizar para resolver este problema es el de k-means clustering, el cual mide las “distancias” entre los distintos puntos para poder armar “k” grupos de observaciones. La idea es que las observaciones dentro de un mismo grupo son similares entre sí, pero los grupos son muy diferentes entre sí. Este algoritmo tiene la ventaja de que todas las mediciones a la hora de agrupar a los jugadores, además, de ser robusto y rápido computacionalmente. A modo de ejemplo, se presenta la siguiente imagen que explica el algoritmo (Fuente: James, G., Witten, D., Hastie, T., y Tibshirani, R. (2013). Una introducción al aprendizaje estadístico (Vol. 112) ). Nueva York: springer.

¿Cómo quedaron armados los clusters?

Tras un pequeño estudio de antecedentes, decidimos separar a los jugadores en ocho grupos distintos. Nuestros clusters son los siguientes:


https://public.tableau.com/views/NBAClustering-Grfico1-Descripcindelosclusters/Dashboarddescriptivo?:embed=y&:display_count=yes&publish=yes

 

Un modo de aclaración, al lado de cada nombre, los puntos por partido de cada jugador. Varias cosas salen a la luz tras poner un poco de atención a los grupos, por lo que intentamos resumir nuestros descubrimientos:

  • Cluster #1: Jugadores titulares o jugadores de rol con mayor importancia. En general, hay jugadores de menor altura (bases y escoltas). Sin ser jugadores de élite, suelen ser jugadores bastante importantes para sus equipos
  • Cluster #2: Jugadores defensivos. Individuos claramente inclinados a ayudar a evitar que el rival anote. Se destacan jugadores que están en algunos de los dos quintetos defensivos de la NBA
  • Cluster #3: Jugadores con casi nula participación. Muchos de los nombres pueden no resultar conocidos, lo cual es confirmado con los pocos puntos por partido. Es pareja la cantidad de jugadores por posición
  • Cluster #4: Jugadores de rol con menor participación que en el cluster #1. Sin embargo, la mayoría de los jugadores suelen tener menor altura
  • Cluster #5: Jugadores de élite. Aquí se encuentran los jugadores que fueron seleccionados para los quintetos All-NBA
  • Cluster #6: Jugadores titulares o jugadores de rol con mayor importancia. Mayoritariamente, hay jugadores de mayor altura, como pivots y ala pivots
  • Cluster #7: Jugadores de rol, mayoritariamente bases, escoltas o aleros
  • Cluster #8: Jugadores de rol, mayoritariamente ala pivots o pivots.

De esta forma, podemos observar que, lógicamente no todos los clusters tienen la misma cantidad de jugadores (existen más jugadores de rol que de élite). Por otro lado, a diferencia del trabajo mencionado de Sampaio et al, utilizamos para armar los distintos grupos las estadísticas “estándar” (puntos, rebotes, asistencias, etc) y no el tracking data, más que nada por una cuestión de facilidad a la hora de interpretar los resultados. Finalmente, es relevante marcar que incorporamos variables que marcaban si un jugador había sido seleccionado para el juego de estrellas, para los quintetos All-NBA o los quintetos defensivos. Estas variables han resultado importantes a la hora de armar los clusters ya que, por ejemplo, el cluster 5 incluye a todos los jugadores All-NBA, mientras que sólo jugadores de los clusters 2 y 5 han seleccionados para los quintetos defensivos, para poner un ejemplo.

¿En qué se diferencian los distintos grupos de jugadores?
Es verdad que ya tenemos a todos los jugadores de la NBA activos, y aunque es posible que las circunstancias hacen que haya ciertos “errores” (en una temporada sin lesiones, es difícil pensar que jugadores como Kawhi Leonard o Kyrie Irving no sean considerados parte del grupo de basquetbolistas de élite), ya tenemos grupos independientes entre sí. Ahora la pregunta es, ¿cómo es la performance promedio de los clusters? A continuación, intentamos resolver esta incógnita y mostramos ciertas medidas de performance:

https://public.tableau.com/views/NBAClustering-Grfico2-Performancedepartidosenlosclusters/Dashboardpermofance?:embed=y&:display_count=yes&publish=yes

Es interesante remarcar que la estadística valida nuestra intuición inicial ya que, a modo de ejemplo, la cantidad de puntos por partido es mayor para el grupo de jugadores de élite (cluster 5), luego para el resto de los jugadores titulares (clusters 6 y 1), después los jugadores defensivos -que también son jugadores relevantes y de gran impacto- (cluster 2) y luego para los jugadores de rol (clusters 7 y 8). Teniendo en cuenta la variable de cantidad de triples, es lógico pensar que los jugadores élite suelen convertir una gran cantidad de triples ya que suelen realizar muchos intentos dada su importancia en el funcionamiento de su equipo, pero, además, es natural que jugadores titulares que juegan de bases o escoltas (cluster 1) van a tirar más triples que pivots o ala pivots titulares (cluster 6). La lógica también acompaña si observamos variables como rebotes o asistencias.


También salta a la vista que los premios de temporada suelen estar limitados a pocos grupos de jugadores. Por ejemplo, los quintetos defensivos de la NBA han sido sólo seleccionados por jugadores especialistas (cluster 2) o jugadores de élite con un gran desempeño en ambos costados de la cancha (cluster 5). Para el Juego de Estrellas sólo fueron seleccionados jugadores de élite, defensivos y titulares de gran nivel, según nuestra primera descripción de los grupos. Es llamativo que, con unas pocas líneas de código y un programa lo suficientemente robusto, hemos podido separar a los jugadores de la NBA en grupos lógicos, distintos entre sí, pero relativamente homogéneos en su composición.
Al ver este primer pantallazo de la performance discriminada por cluster, resulta natural intentar ir un poco más allá y estudiar las relaciones no sólo entre los grupos de jugadores sino también entre las variables. A modo de ejemplo, comenzamos viendo la relación entre variables que quizás marcan la “importancia” y uso de un jugador en el engranaje de un equipo. Para esto, graficamos la cantidad de partidos jugados como titular contra los minutos jugados y la cantidad de puntos convertidos por partido contra la cantidad de tiros libres convertidos en un partido:

https://public.tableau.com/views/NBAClustering-Grfico3-Scatterpuntosypartidos/PTsGames?:embed=y&:display_count=yes&publish=yes

Resulta intuitiva la relación positiva entre ambos pares de variables. Por un lado, jugadores que suelen ser titulares, suelen jugar más minutos (aunque esta relación suele ser más difusa dada la importancia de los sextos hombres, como Andre Iguodala o el propio Manu Ginóbili). Por otro lado, jugadores que convierten más puntos suelen encestar más tiros libres (una posible explicación a esto es que basquetbolistas más relevantes para sus equipos suelen tirar más, y al tirar más, les hacen más infracciones, lo cual lleva a que lancen más tiros libres). Además, suele ser similar el coloreo de los dibujos ya que jugadores de los clusters 3 y 4 suelen estar en la esquina inferior izquierda, mientras que los de los clusters 5 y 1 suelen estar en la esquina superior derecha. Sigue pareciendo interesante que nuestra división inicial sigue siendo consistente a la hora de buscar patrones de métricas de performance.
A continuación, veremos la relación entre otros dos pares de variables: métricas de manejo del balón y métricas defensivas. Graficaremos entonces las asistencias por partido contra las pérdidas y las tapas contra los robos por partido:

 

https://public.tableau.com/views/NBAClustering-Grfico4-Scatterskillsydefensa/DEFSkill?:embed=y&:display_count=yes&publish=yes

Otra vez, los gráficos suelen tener una relación intuitiva. En el de la izquierda, es lógico pensar que ambas variables tienen una relación positiva: los jugadores que más llevan la pelota son quienes suelen tener más asistencias, y casualmente, más pérdidas. Además, los jugadores que más tienen la pelota suelen ser jugadores de elite y los bases titulares, con lo cual tiene sentido que haya jugadores de los clusters 1 y 5 en la esquina superior derecha. Por otro lado, no hay una relación tan clara entre la cantidad de robos y la cantidad de tapas teniendo en cuenta que en general, las tapas las realizan los pivots y los robos, jugadores más “pequeños”. Por lo cual, es lógico que en el extremo derecho del gráfico estén jugadores de los clusters 1 y 5, mientras que en el extremo superior del gráfico haya basquetbolistas importantes y de más altura (clusters 2,5 y 6).

De más está decir que lo presentado es sólo un pequeño pantallazo que muestra la potencia del análisis de clustering y que existe una gran cantidad de aristas para las cuales continuar las descripciones. Sin embargo, por una cuestión de longitud, es ahora donde vamos a finalizar el detalle de los grupos, pero confío en que cualquier lector interesado puede seguir sacándole jugo a las visualizaciones y a los datos.
Ahora bien, ¿para qué sirve todo esto?

“¿Para qué puede servir un análisis de este tipo? Por ejemplo, para negociaciones salariales: jugadores que por nombre piden altos salarios pueden estar teniendo pedidos injustificados… “

Soy de la idea de que la tecnología es un medio y no un fin. Con eso aclarado, queda latente la pregunta de para qué podría servir un análisis de este tipo. A grandes rasgos, surgen las siguientes ideas:
Ayudar a equipos para los emparejamientos: Jugadores menos marketineros, como Evan Fournier o E’Twaun Moore aparecen en el mismo cluster que John Wall y Kemba Walker. En este sentido, hay contrincantes que pueden generar más daño del que uno anticipa de antemano
Negociaciones salariales: Jugadores que, por nombre, piden altos salarios pueden estar teniendo pedidos injustificados. A modo de ejemplo, Carmelo Anthony no debería pedir el mismo salario que James Harden porque, según este análisis, no tiene el mismo nivel de producción
Evaluación de jugadores : Una vez que se sabe a qué grupo pertenece un jugador, se puede comparar el rendimiento con sus compañeros de grupo, para saber si está debajo o sobre el promedio
Claramente, es fácil y rápido pensar formas posibles de utilización de técnicas de Data Mining y Machine Learning para mejorar el funcionamiento y gerenciamiento de equipos. Los datos están. La pregunta es qué quieres para nosotros.

* Analista Invitado de ANALITICA SPORTS

—-

Agradecimientos
A Juan José Miranda Brondt, quien colaboró ​​compartiendo artículos sobre análisis en deportes, Ramiro Gálvez, quien me enseñó lo que se acerca de Data Mining, y Matías Conde, por ayudarme con las visualizaciones.