Skip to main content

Proyección de Presidente con Aprendizaje de Máquinas

El ser humano siempre ha intentado predecir el futuro. El misticismo, la fortuna y la astrología han sido reflejo del deseo del humano de ver el provenir. Hoy en día tenemos otras herramientas para predecir el futuro. La ciencia provee, de alguna manera, una ventana al futuro por medio de utilizar leyes naturales y las leyes de la lógica para realizar inferencias. Por ejemplo, al soltar una piedra a la orilla de un puente, podemos predecir que la piedra caerá, esto debido a la Ley de la Gravedad.   Sin embargo, para muchos ámbitos de la vida aún no poseemos leyes naturales que puedan describirlos a cabalidad. Los terremotos, huracanes y la economía son algunos ejemplos de fenómenos que no podemos predecir del todo. Si bien es posible describirlos de una manera más certera, aún no poseemos un entendimiento de dichos fenómenos para poder formular leyes naturales como en la física o química.


En el caso de las elecciones, no poseemos una teoría general que nos permita predecir los resultados de este fenómeno social. Sin embargo, por medio de utilizar datos y encontrar patrones nos es posible realizar estimaciones y proyecciones de lo que pueda acontecer.

Para esto es necesario recolectar datos y analizarlos para ser capaces de realizar proyecciones posteriormente.  Anteriormente describí el proceso que utilizo para obtener datos respecto a las elecciones en Guatemala. Así mismo, hablé sobre cómo interpretar los datos, procesarlos, y utilizarlos para generar indicadores. Ahora la tarea es utilizar estos indicadores para proyectar lo que pueda ocurrir el día de las elecciones.


Para esto, utilizo la información generada para cada uno de los candidatos presidenciales como una Serie Temporal. Es decir, cada candidato tiene datos generados diariamente y estos pueden servir para encontrar patrones que puedan extrapolar lo que pueda suceder el día de las elecciones. Una de las técnicas más utilizadas para proyectar series temporales son los métodos auto-regresivos integrados de media móvil. Estos modelos buscan encontrar patrones dentro de la información para realizar un modelo que logre determinar los valores futuros de una serie temporal basándose en los valores históricos de dicha variable. Estos modelos consideran el error intrínseco  en las mediciones, así como la influencia de variables externas en el comportamiento de la serie temporal. Debido a que estos modelos son un tipo de modelos lineales, su implementación resulta muy adecuada y robusta con los sistemas computacionales actuales.

Una parte importante de estos modelos es la identificación de los parámetros necesarios para describir la data. Es necesario identificar tres parámetros que influyen en el model: el grado de auto-regresión, el orden de diferenciación, y el número de términos de error a incluirse. Una forma común de evaluar los parámetros utilizados y de realizar aprendizaje automático es por medio de una validación cruzada de los modelos.



La idea principal es partir la información histórica en dos grupos. Un grupo es el utilizado para generar el modelo y este modelo aprendido es utilizado para extrapolar la información correspondiente al otro grupo. Como tenemos la información verdadera de este grupo, podemos contrarrestar las proyecciones con los valores reales de la variable y así evaluar el comportamiento del modelo.


Este procedimiento lo utilizo con las series temporales de cada candidato para general proyecciones de las distribuciones de intención de voto el día de las elecciones. Estos datos se pueden interpretar como un valor esperado de la intención. Así mismo, el modelo genera un intervalo de confianza para las proyecciones, lo cual utilizo para realizar simulaciones. Utilizando el Método de Montecarlo, realizo al rededor de 50,000 simulaciones de las elecciones con los datos obtenidos de los modelos de proyección. Dentro de estas simulaciones se puede obtener la probabilidad de que cada candidato termine de primer o segundo lugar en las distribuciones de intención de voto, y por ende, pase a segunda vuelta.

Utilizando minería de datos, análisis de datos, y proyecciones es posible describir un fenómeno tan complejo como las elecciones.  La matemática utilizada en cada etapa es diferente y sirve para propósitos distintos. Combinando todo este análisis, es posible obtener modelos que aprenden y se mejoran cada día, analizando más de 2,000 tweets, al rededor de 900 páginas de Facebook, integrando información de encuestas, Google, y realizando análisis de sentimiento, además de realizar 20,000 mil simulaciones de índices y 50,000 simulaciones de las elecciones diariamente.


Comments

Popular posts from this blog

Las elecciones a pesar del netcenter y las fake news

Como es costumbre, desde hace ya dos elecciones atrás  1,2 , he estado analizando datos sobre la intención de voto en las próximas las elecciones en Guatemala. En esta ocasión obtengo que los tres partidos con mayores probabilidades de pasar a segunda vuelta son UNE, CABAL y VALOR-UNIONISTA. Esto lo consigo analizando datos y utilizando modelos matemáticos para su tratamiento. Esta es una labor difícil dada la poca cantidad de datos disponibles en Guatemala, la múltiple cantidad de candidatos y la veracidad de los datos disponibles, entre otras cosas. A pesar de esto, es posible analizar el proceso electoral y obtener conclusiones que puedan darnos una idea de lo que está pasando. Si bien no es posible  predecir  el futuro, es posible  analizar  el presente con la información disponible. Datos, datos, datos Para realizar cualquier tipo de análisis cuantitativo, es necesario tener acceso a una buena cantidad de datos y que estos sean confiables. Varias de las proyecciones más exitosas d

Características generales de vivienda en Guatemala

Más allá de proveer el número de habitantes en Guatemala, el Censo 2018 es una fuente importante de otros datos a nivel nacional que nos permiten describir, entender, y actuar con base a la realidad del país. Una parte importante de los datos censados la conforman los datos referentes a las condiciones de vivienda en Guatemala. El primer dato que encontramos es que se registraron aproximadamente 3.2 millones de viviendas. Esto nos da un promedio de entre 3 y 4 habitantes por vivienda. El Progreso y Zacapa son los departamentos con menos habitantes por vivienda, mientras Quiché y Alta Verapaz son los que más habitantes por vivienda reportan. Doce municipios presentan un promedio arriba de cinco habitantes por vivienda, siendo Concepción, Sololá el más alto con un promedio arriba de 6 habitantes por vivienda. La mitad de estos municipios con alta densidad por vivienda se encuentran en Alta Verapaz, siendo el municipio de Tamahú el más denso. Por otro lado, 15 municipios tienen u

La energía en Guatemala: Generación y consumo.

 El análisis del uso de la energía se ha vuelto un punto central en la discusión del futuro del planeta, especialmente con respecto del cambio climático. Con esto me surgió la inquietud de ver el estado actual de la producción y el consumo de energía en Guatemala.  Si primero nos enfocamos en la energía que se consume en los hogares, tenemos tres actividades principales que consumen energía: la cocina, la iluminación y el calentado de agua. Según datos del más reciente censo, más de la mitad de hogares guatemaltecos utilizan leña para cocinar. Solamente un 1 % utiliza energía eléctrica para esto. Un 44 % utiliza gas propano, siendo el departamento de Guatemala el que presenta el mayor consumo de este recurso. Por otro lado, la mayoría de hogares del altiplano del país utilizan leña para cocinar, en donde en algunos municipios se llega a casi el 90 % de los hogares. Cabe destacar que cocinar con leña está altamente relacionado con la presencia de enfermedades respiratorias. Estas se pos