Skip to main content

La matemática que proyecta al Campeón del Mundo

Con el inicio del mundial me dediqué a jugar un poco con datos para realizar modelos de predicción de los encuentros. Ha sido una buena experiencia para pensar más en lo que en realidad significa realizar modelos de predicción, así como para ponerle más entusiasmo al torneo.


En primer lugar, es importante hablar sobre lo que significa predecir o proyectar un resultado. Es imposible predecir el futuro como tal, sin embargo, es posible crear modelos que den una tendencia hacia algún resultado. Modelos determinísticos se basan en leyes fundamentales para modelar fenómenos. Por ejemplo, en la física, los modelos de movimiento de los cuerpos ofrecen trayectorias teóricas que describen su movimiento. En la práctica, estos modelos dan resultados aproximados de las trayectorias, debido a errores de medición, incertezas, y demás errores presentes en los parámetros y variables presentes. Por esto, dichos modelos presentan un modelo con cierto margen de error. Con métodos más precisos de medición y de cálculo, dichos errores pueden hacerse mínimos y así tener casi cualquier precisión deseada.


Los modelos probabilísticos contienen una mezcla de elementos teóricos y prácticos. Algunos tratan de minimizar el uso de teoría externa y se enfocan en los datos, como Machine Learning e Inteligencia Artificial. Otros modelos usan la combinación de leyes teóricas con datos reales, como los modelos utilizados para pronosticar el clima, el tráfico, y el flujo de fluídos

Estos modelos deben de ser tomados no como indicadores si un evento pasará o no, sino como indicando la probabilidad de que cierto evento suceda. Hay dos maneras de interpretar lo que esta probabilidad significa, dependiendo de la filosofía que se utilice para el modelo. La interpretación frecuentista puede entenderse como un porcentaje. Es decir, que la probabilidad de soleado el día de mañana sea del 37%, significa que de 100 días cuyo día anterior presente las mismas condiciones (datos) de hoy, 37 serán soleados. En otras palabras, esta probabilidad representa una tendencia al realizar varios experimentos del evento a ser modelado. Esto está relacionado con la Ley de Los Grandes Números.


Otra interpretación es la Bayesiana. Acá se asume que los fenómenos siguen un comportamiento probabilístico y la idea es tratar de identificar los parámetros que determinar esta distribución por medio de hacer suposiciones y actualizar los parámetros en base a los datos obtenidos. Acá la idea de probabilidad se ve entonces como un parámetro o un tipo de valor esperado.

Cualquiera que sea el método utilizado, es importante tener en cuenta la importancia del concepto de probabilidad utilizado, y que en la vida real, solo realizamos una observación con exactamente todas las variables en un valor determinado. Este es el efecto real de la aleatoriedad en los procesos modelados.


He estado realizando proyecciones con datos históricos de cada selección. En la primer fase, el modelo obtuvo 66% de los resultados correctos. Modelar los marcadores resulta ser bastante complicado por un sin número de factores, sin embargo es posible hacer algo al respecto. 

Para modelar los resultados, mi perspectiva fue en clasificar a los equipos en diferentes tácticas de juego. Los equipos no se comportan de una manera lineal ordenada, sino que a veces pueden ganar contra un equipo menor rankeado, sin embargo perder con uno de ranking aun menor. Por esta razón, mi idea fue obtener distintas estrategias de juego para cada equipo.

Por ejemplo, para modelar un juego del Equipo A contra el Equipo B, procedí en dos etapas:
  1. Modelar el juego del Equipo A al jugar contra un equipo como el Equipo B.
  2. Modelar el juego del Equipo B al jugar contra un equipo como el Equipo A.
Para esto utilicé uno de mis métodos favoritos, el Análisis Cluster. De esta manera, con base a los datos históricos de cada Selección, es posible clasificar los tipos de juego contra otras selecciones. Cada grupo cuenta entonces con un número promedio de partidos jugados, ganados, empatados, perdidos, un número promedio de goles a favor y en contra. Con estos parámetros es posible entonces obtener valores de probabilidad de que el Equipo A gane, empate, o pierda frente a un equipo como el Equipo B. Similarmente, es posible obtener dichos valores desde la perspectiva del Equipo B. 

De esta manera, los datos históricos proveen una manera de obtener los parámetros de la distribución que modela los encuentros ente los equipos A y B, obteniendo las probabilidades como valores esperados. 



Uno de los mayores problemas apareció cuando no habían datos históricos entre los equipos A y B. Para esto realicé una clasificación preliminar de cada equipo con equipos equivalentes, por medio de buscar el máximo número de empates. Por lo tanto, la idea es obtener un grupo de equipos A1, A2, ..., An que presentan características similares al Equipo A. De igual manera, obtener equipos B1, B2, .., Bm con características similares al Equipo B. Luego realizar las simulaciones entre los equipos Ai y Bj y promediar los resultados para obtener los parámetros entre los equipos A y B.


El análisis de los marcadores resulta ser más complejo. Es posible modelarlos también por medio de una distribución de goles, sin embargo los eventos presentan mayor aleatoriedad debido a factores como tiempo de anotación, condiciones meteorológicas, tipo de partido (amistoso, clasificatorio, etc.), entre otros. El estándar para modelar marcadores es por medio de distribuciones de Poisson, en donde es necesario inferir el parámetro de la distribución a partir de los datos experimentales obtenidos por el análisis cluster de goles a favor y en contra de cada equipo. Para esto utilicé una estimación por medio de Máxima Verosimilitud.


Finalmente, para tomar en cuenta todos los posibles resultados y las posibles combinaciones, realicé una simulación de Monte Carlo para obtener los marcadores más posibles. Con esto simulé cada encuentro entre 1,000 y 10,000 veces para obtener los resultados y marcadores más probables. 

Al final, es posible ver los partidos como una muestra aleatoria dada por un modelo con parámetros dados por la proyección. Es normal esperar que no todos los resultados sean certeros, sin embargo el reto es poder actualizar y refinar el modelo para poder tener una lectura más realista y una distribución más fiel a la realidad. Esto depende mucho de las variables consideradas. En este caso solamente consideré el número de partidos entre si, partidos ganados, empatados, y perdidos, y goles a favor y en contra. Otros sitios y proyectos de predicción consideraron datos como estadísticas de jugadores individuales, desempeño en ligas, estadísticas de los partidos en tiempo real, entre otras. Lo indispensable es dar la importancia al concepto de probabilidad y su relevancia en la realización de proyecciones. 



PS. En todas las simulaciones, Brasil queda como campeón del mundo.









Comments

Popular posts from this blog

Las elecciones a pesar del netcenter y las fake news

Como es costumbre, desde hace ya dos elecciones atrás  1,2 , he estado analizando datos sobre la intención de voto en las próximas las elecciones en Guatemala. En esta ocasión obtengo que los tres partidos con mayores probabilidades de pasar a segunda vuelta son UNE, CABAL y VALOR-UNIONISTA. Esto lo consigo analizando datos y utilizando modelos matemáticos para su tratamiento. Esta es una labor difícil dada la poca cantidad de datos disponibles en Guatemala, la múltiple cantidad de candidatos y la veracidad de los datos disponibles, entre otras cosas. A pesar de esto, es posible analizar el proceso electoral y obtener conclusiones que puedan darnos una idea de lo que está pasando. Si bien no es posible  predecir  el futuro, es posible  analizar  el presente con la información disponible. Datos, datos, datos Para realizar cualquier tipo de análisis cuantitativo, es necesario tener acceso a una buena cantidad de datos y que estos sean confiables. Varias de las proyecciones más exitosas d

Características generales de vivienda en Guatemala

Más allá de proveer el número de habitantes en Guatemala, el Censo 2018 es una fuente importante de otros datos a nivel nacional que nos permiten describir, entender, y actuar con base a la realidad del país. Una parte importante de los datos censados la conforman los datos referentes a las condiciones de vivienda en Guatemala. El primer dato que encontramos es que se registraron aproximadamente 3.2 millones de viviendas. Esto nos da un promedio de entre 3 y 4 habitantes por vivienda. El Progreso y Zacapa son los departamentos con menos habitantes por vivienda, mientras Quiché y Alta Verapaz son los que más habitantes por vivienda reportan. Doce municipios presentan un promedio arriba de cinco habitantes por vivienda, siendo Concepción, Sololá el más alto con un promedio arriba de 6 habitantes por vivienda. La mitad de estos municipios con alta densidad por vivienda se encuentran en Alta Verapaz, siendo el municipio de Tamahú el más denso. Por otro lado, 15 municipios tienen u

La energía en Guatemala: Generación y consumo.

 El análisis del uso de la energía se ha vuelto un punto central en la discusión del futuro del planeta, especialmente con respecto del cambio climático. Con esto me surgió la inquietud de ver el estado actual de la producción y el consumo de energía en Guatemala.  Si primero nos enfocamos en la energía que se consume en los hogares, tenemos tres actividades principales que consumen energía: la cocina, la iluminación y el calentado de agua. Según datos del más reciente censo, más de la mitad de hogares guatemaltecos utilizan leña para cocinar. Solamente un 1 % utiliza energía eléctrica para esto. Un 44 % utiliza gas propano, siendo el departamento de Guatemala el que presenta el mayor consumo de este recurso. Por otro lado, la mayoría de hogares del altiplano del país utilizan leña para cocinar, en donde en algunos municipios se llega a casi el 90 % de los hogares. Cabe destacar que cocinar con leña está altamente relacionado con la presencia de enfermedades respiratorias. Estas se pos