Las ligas profesionales encontraron en los datos un nuevo activo: claves para seguir el juego en la segunda pantalla, fundamentar los fantasy games, adecuar su información a los sponsors y hasta para mantener informado al detalle a los cuerpos técnicos del juego de los equipos.

Sin embargo, la multiplicidad de proveedores de datos de juego y el trabajo de cientos de analistas-fanáticos del fútbol abre nuevos planteos tanto para la industria como para el fanático: ¿Cómo debe tratarse la información? ¿Por qué el mismo indicador es diferente en distintos sitios? ¿Se debe priorizar la difusión y viralización de la información por sobre la calidad y la consistencia de la misma?

Buscando esclarecer un poco el panorama, les proponemos un recorrido sobre el otro lado de los datos en el deporte.

1. ¿Cómo se toman los datos en el fútbol?

Repetido hasta el cansancio en las presentaciones introductorias sobre el concepto de Big Data, la cantidad de información que se genera actualmente es ampliamente superior a la que se hacía en otros tiempos. No obstante, esto no quiere decir que en todos los ámbitos la proporción sea la misma. Por poner un ejemplo  efectivo:  una compañía de telecomunicaciones genera más data que otras industrias y lo hace de manera más automatizada.

El detalle presentado busca puntualizar sobre el hecho de que no toda información se genera igual de rápido.Y si bien en el fútbol el volumen de datos aumento exponencialmente, en cuanto a las estadísticas de performance,  siguen teniendo un componente manual no menor en la acción de recabar el dato.

Existe un mito que supone que la información que podemos ver en tiempo real en los partidos se captura automáticamente, y eso no es, al menos, del todo cierto. Generalmente los proveedores de datos tienen equipos de “capturadores” visualizando el juego y cargando los datos en una plataforma. Esos datos luego los compila a través de una API para que puedan ser levantados por las programaciones de los sitios que permiten seguir el partido online o bien por las propias transmisiones que los muestra a través de un graph en la televisión.

Existe un mito que supone que la información que podemos ver en tiempo real en los partidos se captura automáticamente, y eso no es, al menos, del todo cierto

Es decir, que para cada partido hay un grupo de gente trabajando. El número depende del nivel de cobertura (detalle de los datos a capturar) que tenga la liga o el partido. Generalmente un encuentro que tenga el nivel máximo de detalle (incluyendo, por ejemplo, el desagregado de todos los pases y qué jugador se la pasa a que jugador) requiere 4 personas ingresando datos en tiempo real + 1 supervisor que pueda ir “corrigiendo” las jugadas polémicas (como definir quien convirtió el primer gol de Racing en el clásico con Independiente) con algo de delay.

En consecuencia  esos datos que vemos en la cobertura del sitio o en la propia pantalla tienen al menos cinco personas en el proceso de captura, sin contar la programación de los extractos, el mantenimiento de bases y  el trabajo de reprocesamiento y visualización de quienes se encargan de las páginas o apps de seguimiento.

Esto no quiere decir que todos los datos se tomen de manera manual. Por el contrario hay procesos que aplican sobre la carga y generan otros indicadores importantes en el relevo de información del juego. Lo que queremos dejar en claro es que el componente humano todavía es clave en el proceso de captura de datos en el fútbol.

¿Donde están y quienes son las personas qué están detrás de ese proceso de captura? Eso básicamente depende del proveedor de datos, algunos tienen oficinas propias en países de la región donde se reúnen para la cobertura del partido, inclusive suele asignarse el mismo capturador a un mismo club durante toda la temporada para facilitar el conocimiento del juego y el seguimiento de los jugadores. Otras compañías tienen procesos similares pero con personas capturando información remotamente (es decir, desde sus casas), y otras utilizan grupos menores en cantidad de personas pero que ingresan datos en diferido, pero con la posibilidad de parar el partido evitando así los errores que puedan cometerse en la voracidad del realtime.

La mayoria de las compañias suelen incluir instancias de revisión, que van desde grupos de gente viendo el partido nuevamente en diferido (insisto, con la chance de parar el partido y verificar con más detalle) y corrigiendo errores de captura, hasta procesos a través de algoritmos que detectan acciones inusuales y posibles errores.

Resumen I: Los datos en el fútbol aún son costosos de capturar y distan de ser una simple aplicación automatizada. Detrás de ellos esta el trabajo de gente entrenada, incluyendo procesos de revisión detallados que implican no pocos recursos para asegurar la mayor veracidad posible.

2. ¿Por qué la misma estadística puede mostrar dos números diferentes?

Esta es una situación que pasa habitualmente con el indicador de posesión y la cantidad de pases que se dan un partido, pero también pueden pasar con otros datos generales importantes, y con algunas cuestiones menores. Hay básicamente dos motivos por los cuales pasa esto:

a) Porqué estamos viendo el mismo dato capturado por dos proveedores distintos: cada empresa suele tener su protocolo, por lo tanto no son exactamente las mismas definiciones las que utiliza un proveedor. Para cuestiones como “remates” o “pases”, algunos toman en cuenta la intención del lanzador y otros el resultado del mismo. Además recordemos que hay personas capturando esa información en tiempo real, con lo cual hay un margen para las diferencias menores pero existentes que puede haber en la lectura de la jugada por parte de un analista u otro. En secuencias de pases largas, duelos de pelota reñidos u otras circunstancias pueden aparecer estas diferencias.

Cuando el nivel de detalle de un partido es tan profundo, no existen los “datos propios” tomados por un periodista o una cuenta puntual, ya que es imposible para una sola persona capturar, procesar y visualizar esa cantidad de datos en tiempo real.

Un dato importante a tener en cuenta es que no hay tantos proveedores de datos, por lo cual es bastante simple rastrear la empresa que originó el dato. Y que no existen, cuando el nivel de detalle de un partido es tan profundo, los “datos propios” tomados por un periodista o una cuenta puntual, ya que es imposible para una sola persona capturar, procesar y visualizar esa cantidad de datos en tiempo real. Lo que si existe, y merece un artículo aparte por el nivel de detalle y trabajo, son periodistas que llevan compilaciones propias de datos, especialmente de información referida a los historiales de los equipos y a la participación de los jugadores.

b) Porqué estamos viendo un dato en tiempo real y otro luego de la revisión: esta es muy común con las diferencias respecto a lo que nos muestran las transmisiones, la información puede corregirse a través del supervisor durante el mismo partido, o en el proceso de revisión posterior, de ahí que este último sea tan importante.

c) Porqué hay errores o delays (demoras) en el proceso de visualización del dato: esto es menos habitual, pero puede pasar que haya demoras con los servidores, por lo cual se este mostrando un dato “viejo” o directamente incorrecto, consecuencia de un error en la programación, por ejemplo levantar una variable incorrecta como los pases del jugador X cuando se muestra el jugador Y.

Resumen II: Vamos a encontrar diferencias en los datos porque hay distintos proveedores capturando la información, porque hay errores de captura corregidos por la revisión o porqué algo falló en la visualización de la información (o por una combinación de alguna de las anteriores).

Las diferencias suelen ser menores y no significativas estadísticamente, sin embargo a mayor es la demanda menor el margen de error, especialmente para las ligas, imagínense que un premio de un fantasy game definido por un error o un informe con datos no verificados para un cuerpo técnico pueden generar demandas y problemas de gran escala a la organización, de allí que se apunte a proveedores con grandes esquemas de revisión y procesos de captura locales y supervisables, al margen de que las definiciones de cada una de las acciones sean detalladas y publicas para los usuarios.

En este punto es donde las ligas y los clubes empiezan a hablar de “Datos Oficiales” para distinguir la información que pueden supervisar, revisar y reprocesar del resto.

 

3. ¿Cómo se vuelven públicos los datos?

Si siguieron el proceso que demanda la obtención del dato, podrán suponer que obtener esta información dado los recursos que requiere, no es algo económicamente al alcance de cualquier persona.

De todas maneras hay varias formas mediante las cuales los datos (o al menos una parte de ellos) se vuelven públicos, la primera es a través de los medios de comunicación, la segunda es cuando la propia empresa proveedora los difunde, sea directamente a través de sus cuentas o dándole acceso a analistas puntuales para que reprocesen y hagan públicos sus datos. La tercera, es cuando el propio analista, sea por hobby o por trabajo freelance, se suscribe al servicio de datos (o los obtiene de alguna manera) y crea sus propios gráficos.

La forma más habitual que los datos ven la luz es a través de los medios de comunicación, especialmente los portales de los diarios deportivos suelen traer muchísima información de los partidos a través de los widgets de datos embebidos en las notas que reportan el juego. Desgraciadamente suele haber pocas referencias a las estadísticas en el texto, con lo cual no despiertan mucho interés en el lector convencional, pero son una fuente muy detallada de información. La limitación ahí no es la cantidad de datos que se muestran (hay muchisimo detalle en medios masivos como Olé de Argentina o As de España), sino el formato en el cual se encuentra la información.

¿Por qué los analistas “regalan” su trabajo? Twitter funciona como portfolio en muchas industrias y en el deporte no es la excepción.

El formato es clave para poder trabajar los datos, es decir generar nuevos cruces de variables, ponderaciones, reprocesamientos y otras cuestiones afines, necesarias para llevar información a otro nivel. Al mostrar data estática los medios obligan que para que profundizar haya que ser un gran interpretador de estadísticas (que son pocos) o sea necesario “robarse” los datos a través de procesos de tedioso scrapeo y generación de bases de datos secundarias, procedimiento que suele llevar mucho tiempo y no es algo que la mayoría de los analistas posea.

La alternativa lógica es recurrir a la fuente de datos original, para eso hay tres caminos:  a) que los datos sean abiertos por la compañía proveedora (como por ejemplo ha hecho Statsbomb); b) llegar a un acuerdo con la empresa, sea para difusión o con fines de investigación académica ó c) comprar directamente el feed o el acceso y reprocesarlo a gusto. Hay una cuarta posibilidad, excepcional, que seria compartir el acceso otorgado por algún cliente (un club o incluso una liga).

Con base en estas alternativas, aparecen cada vez más en las redes sociales (más que nada en Twitter) cuentas que analizan datos futboleros, algunos hasta han desarrollados sitios y marcas propias. Los podemos dividir en dos grupos:

  • Los que tienen el acceso a alguna plataforma, hacen visualizaciones standard y copypastean datos.
  • Los que reprocesan y generan/mejoran indicadores y eventualmente hacen visualizaciones potentes.

Estos últimos suelen ser los más interesantes, el trabajo agregado abre nuevos debates y permite acceder a análisis complejos (y lo hacen casi siempre abriendo el código para explicar como llegaron hasta ahí). Buena parte de los nuevos indicadores para analizar este juego (xG, xA, SNA aplicado, etc) nació o se mejoró a partir de estos investigadores, en muchos casos apoyados y/o posteriormente captados por la propias empresas y clubes. por lo que estamos ante una parte clave en el crecimiento de la industria.

Los primeros generan algo más de ruido, suelen mostrar indicadores más genéricos, con poco detalle acerca de como se construyeron (incluso a veces, olvidan de poner la/s fuente/s de donde obtienen los datos). Si bien difunden la competencia, esta descontextualización genera confusión en el fanático, dando lugar a interpretaciones inexactas eventualmente ampliadas por parte del periodismo (que levanta el dato sin la información complementaria) y replicando una multiplicidad de fuentes sobre los mismos indicadores, que hacen dudar al seguidor de la precisión de los mismos.

Es cierto que ambos tipos de análisis aportan una revisión crítica del nivel de juego que es absolutamente necesaria, difícilmente una liga o un club salga a marcar lo mal que esta jugando un equipo de su competición o un jugador de su plantel, y la exposición de estos datos cubre esa parte del trabajo.

Hay que entender, que el trabajo del (buen) analista de datos suele ser complejo y requiere de mucho tiempo y dedicación. Contrariamente a lo que algunos projects managers todavía creen, no se trata de correr sintaxis prefabricadas y que estas automáticamente generen visualizaciones consistentes y amigables para el usuario, sino que detrás de cada gráfico hay mucho trabajo poco vistoso, como el de limpieza de bases, el pre-procesamiento de datos para amoldarlos al formato de la visualización y muchas otras cuestiones que implica que el analista deba lidiar con un sinfín de pequeños-grandes problemas que afectan los resultados del reporte final.

¿De quién es la propiedad de los datos sino de quienes lo generan? ¿Son de una naturaleza diferente a los  derechos de televisión, las licencias sobre el uso de los nombres, los logos y formatos de competencia? ¿Existe tal cosa como la piratería de datos? Esas son algunas de las preguntas que por estos días trata de responderse la industria del fútbol.

¿Por qué los analistas “regalan” su trabajo? Twitter funciona como portfolio en muchas industrias, y en el deporte no es la excepción. SI a esto le sumamos que en el mundo del procesamiento y análisis de datos es una práctica habitual compartir sintaxis, trucos y visualizaciones, no es de extrañar que aparezcan trabajos de modo público. El problema es que algunos analistas tiran toda la carne al asador, publicando trabajos extensos gratuitamente, aportando indirectamente a la idea de que este tipo de labores en el fútbol es fácil de realizar, que cualquiera lo puede hacer igual de bien o cuanta conclusión apresurada beneficie a una industria que en ocasiones tiene problemas para pagarle a los actores principales (jugadores y DTs) y en muchos casos esta avida de evitar el pago a los actores secundarios, beneficiándose del fanatismo y el entusiasmo que el fútbol despierta.

Más simple: Ningún analista de datos va a pasar ocho horas de su día viendo como mejorar una segmentación de clientes de un banco de manera gratuita, pero probablemente si lo haga para explicar el juego de su equipo favorito.  Esto es contraproducente para la profesionalización del rubro, que por carga y complejidad de trabajo ha dejado de ser un hobby hace rato.

 

 

La desvalorización por parte de un sector (cada vez más chico) de la prensa sobre las estadísticas en el fútbol, y el desentendimiento del tema por parte de Ligas, Clubes y Asociaciones tiene que ver, entre otras cosas, con esta falsa idea de automatización y facilidad de acceso a la información que sobrevuela. Lo señalo asumiendo mi rol de este lado del mostrador (llevo 14 años atrás de una computadora analizando datos) y lo resalto: la captura como el procesamiento y la visualización de los datos bien hecha es muy costosa, tanto en recursos económicos  como en recursos humanos. Tan costosa que no tiene sentido presentarla empaquetada y genérica a la prensa, cuerpos técnicos y fanáticos.

Resumen III: Los datos se vuelven públicos a través de la prensa, de las empresas proveedoras abriendo su información o de analistas que acceden a las plataformas de datos y las publican, copiando y pegando en algunos casos y agregándoles valor otros. La capacidad de interpretación explica solamente una parte de buen análisis, las visualizaciones detalladas o las nuevas ideas aplicadas que aparecieron en los últimos años tienen muchas horas de trabajo atrás como para igualarlas con cosas genéricas.

4. Datos Oficiales: ¿Por qué las ligas empiezan a controlar la difusión?

¿De quién es la propiedad de los datos sino de quienes lo generan? ¿Son de una naturaleza diferente a los  derechos de televisión, las licencias sobre el uso de los nombres, los logos y formatos de competencia? ¿Existe tal cosa como la piratería de datos y si es así, como debe evitarse? Esas son algunas de las preguntas que por estos días trata de responderse la industria del fútbol.

 

Empezamos el artículo diciendo que los datos son el nuevo activo que han encontrado las competiciones y los clubes, en el cuerpo detallamos sin embargo que no son las estructuras de la competencia necesariamente las que recaban la información y que no hay una única fuente.

En el cierre, acordamos que los organismos deberían ser responsables, ante la multiplicidad de proveedores y cuentas publicando números disimiles. de certificar, validar y mejorar la información presentada. El proceso necesita de equipos de análisis internos cada vez más extensos, y de poner a disposición libremente de, al menos, una parte de los datasets, para involucrar analistas externos que permitan profundizar la investigación y el desarrollo a la vez que la información se divulgue desde diferentes ángulos: cerrar completamente los datos seria un error como asumir que cualquier información dando vueltas es igual de válida.

 

 

Matías Conde

Data Analyst. Responsable de Analítica Sports Data.

Twitter