Con el inicio del mundial me dediqué a jugar un poco con datos para realizar modelos de predicción de los encuentros. Ha sido una buena experiencia para pensar más en lo que en realidad significa realizar modelos de predicción, así como para ponerle más entusiasmo al torneo.
En primer lugar, es importante hablar sobre lo que significa predecir o proyectar un resultado. Es imposible predecir el futuro como tal, sin embargo, es posible crear modelos que den una tendencia hacia algún resultado. Modelos determinísticos se basan en leyes fundamentales para modelar fenómenos. Por ejemplo, en la física, los modelos de movimiento de los cuerpos ofrecen trayectorias teóricas que describen su movimiento. En la práctica, estos modelos dan resultados aproximados de las trayectorias, debido a errores de medición, incertezas, y demás errores presentes en los parámetros y variables presentes. Por esto, dichos modelos presentan un modelo con cierto margen de error. Con métodos más precisos de medición y de cálculo, dichos errores pueden hacerse mínimos y así tener casi cualquier precisión deseada.
Los modelos probabilísticos contienen una mezcla de elementos teóricos y prácticos. Algunos tratan de minimizar el uso de teoría externa y se enfocan en los datos, como Machine Learning e Inteligencia Artificial. Otros modelos usan la combinación de leyes teóricas con datos reales, como los modelos utilizados para pronosticar el clima, el tráfico, y el flujo de fluídos.
Estos modelos deben de ser tomados no como indicadores si un evento pasará o no, sino como indicando la probabilidad de que cierto evento suceda. Hay dos maneras de interpretar lo que esta probabilidad significa, dependiendo de la filosofía que se utilice para el modelo. La interpretación frecuentista puede entenderse como un porcentaje. Es decir, que la probabilidad de soleado el día de mañana sea del 37%, significa que de 100 días cuyo día anterior presente las mismas condiciones (datos) de hoy, 37 serán soleados. En otras palabras, esta probabilidad representa una tendencia al realizar varios experimentos del evento a ser modelado. Esto está relacionado con la Ley de Los Grandes Números.
Otra interpretación es la Bayesiana. Acá se asume que los fenómenos siguen un comportamiento probabilístico y la idea es tratar de identificar los parámetros que determinar esta distribución por medio de hacer suposiciones y actualizar los parámetros en base a los datos obtenidos. Acá la idea de probabilidad se ve entonces como un parámetro o un tipo de valor esperado.
Cualquiera que sea el método utilizado, es importante tener en cuenta la importancia del concepto de probabilidad utilizado, y que en la vida real, solo realizamos una observación con exactamente todas las variables en un valor determinado. Este es el efecto real de la aleatoriedad en los procesos modelados.
He estado realizando proyecciones con datos históricos de cada selección. En la primer fase, el modelo obtuvo 66% de los resultados correctos. Modelar los marcadores resulta ser bastante complicado por un sin número de factores, sin embargo es posible hacer algo al respecto.
Para modelar los resultados, mi perspectiva fue en clasificar a los equipos en diferentes tácticas de juego. Los equipos no se comportan de una manera lineal ordenada, sino que a veces pueden ganar contra un equipo menor rankeado, sin embargo perder con uno de ranking aun menor. Por esta razón, mi idea fue obtener distintas estrategias de juego para cada equipo.
Por ejemplo, para modelar un juego del Equipo A contra el Equipo B, procedí en dos etapas:
- Modelar el juego del Equipo A al jugar contra un equipo como el Equipo B.
- Modelar el juego del Equipo B al jugar contra un equipo como el Equipo A.
Para esto utilicé uno de mis métodos favoritos, el Análisis Cluster. De esta manera, con base a los datos históricos de cada Selección, es posible clasificar los tipos de juego contra otras selecciones. Cada grupo cuenta entonces con un número promedio de partidos jugados, ganados, empatados, perdidos, un número promedio de goles a favor y en contra. Con estos parámetros es posible entonces obtener valores de probabilidad de que el Equipo A gane, empate, o pierda frente a un equipo como el Equipo B. Similarmente, es posible obtener dichos valores desde la perspectiva del Equipo B.
De esta manera, los datos históricos proveen una manera de obtener los parámetros de la distribución que modela los encuentros ente los equipos A y B, obteniendo las probabilidades como valores esperados.
Uno de los mayores problemas apareció cuando no habían datos históricos entre los equipos A y B. Para esto realicé una clasificación preliminar de cada equipo con equipos equivalentes, por medio de buscar el máximo número de empates. Por lo tanto, la idea es obtener un grupo de equipos A1, A2, ..., An que presentan características similares al Equipo A. De igual manera, obtener equipos B1, B2, .., Bm con características similares al Equipo B. Luego realizar las simulaciones entre los equipos Ai y Bj y promediar los resultados para obtener los parámetros entre los equipos A y B.
El análisis de los marcadores resulta ser más complejo. Es posible modelarlos también por medio de una distribución de goles, sin embargo los eventos presentan mayor aleatoriedad debido a factores como tiempo de anotación, condiciones meteorológicas, tipo de partido (amistoso, clasificatorio, etc.), entre otros. El estándar para modelar marcadores es por medio de distribuciones de Poisson, en donde es necesario inferir el parámetro de la distribución a partir de los datos experimentales obtenidos por el análisis cluster de goles a favor y en contra de cada equipo. Para esto utilicé una estimación por medio de Máxima Verosimilitud.
Finalmente, para tomar en cuenta todos los posibles resultados y las posibles combinaciones, realicé una simulación de Monte Carlo para obtener los marcadores más posibles. Con esto simulé cada encuentro entre 1,000 y 10,000 veces para obtener los resultados y marcadores más probables.
Al final, es posible ver los partidos como una muestra aleatoria dada por un modelo con parámetros dados por la proyección. Es normal esperar que no todos los resultados sean certeros, sin embargo el reto es poder actualizar y refinar el modelo para poder tener una lectura más realista y una distribución más fiel a la realidad. Esto depende mucho de las variables consideradas. En este caso solamente consideré el número de partidos entre si, partidos ganados, empatados, y perdidos, y goles a favor y en contra. Otros sitios y proyectos de predicción consideraron datos como estadísticas de jugadores individuales, desempeño en ligas, estadísticas de los partidos en tiempo real, entre otras. Lo indispensable es dar la importancia al concepto de probabilidad y su relevancia en la realización de proyecciones.
PS. En todas las simulaciones, Brasil queda como campeón del mundo.
Comments
Post a Comment