El ser humano siempre ha intentado predecir el futuro. El misticismo, la fortuna y la astrología han sido reflejo del deseo del humano de ver el provenir. Hoy en día tenemos otras herramientas para predecir el futuro. La ciencia provee, de alguna manera, una ventana al futuro por medio de utilizar leyes naturales y las leyes de la lógica para realizar inferencias. Por ejemplo, al soltar una piedra a la orilla de un puente, podemos predecir que la piedra caerá, esto debido a la Ley de la Gravedad. Sin embargo, para muchos ámbitos de la vida aún no poseemos leyes naturales que puedan describirlos a cabalidad. Los terremotos, huracanes y la economía son algunos ejemplos de fenómenos que no podemos predecir del todo. Si bien es posible describirlos de una manera más certera, aún no poseemos un entendimiento de dichos fenómenos para poder formular leyes naturales como en la física o química.
En el caso de las elecciones, no poseemos una teoría general que nos permita predecir los resultados de este fenómeno social. Sin embargo, por medio de utilizar datos y encontrar patrones nos es posible realizar estimaciones y proyecciones de lo que pueda acontecer.
Para esto es necesario recolectar datos y analizarlos para ser capaces de realizar proyecciones posteriormente. Anteriormente describí el proceso que utilizo para obtener datos respecto a las elecciones en Guatemala. Así mismo, hablé sobre cómo interpretar los datos, procesarlos, y utilizarlos para generar indicadores. Ahora la tarea es utilizar estos indicadores para proyectar lo que pueda ocurrir el día de las elecciones.
Para esto, utilizo la información generada para cada uno de los candidatos presidenciales como una Serie Temporal. Es decir, cada candidato tiene datos generados diariamente y estos pueden servir para encontrar patrones que puedan extrapolar lo que pueda suceder el día de las elecciones. Una de las técnicas más utilizadas para proyectar series temporales son los métodos auto-regresivos integrados de media móvil. Estos modelos buscan encontrar patrones dentro de la información para realizar un modelo que logre determinar los valores futuros de una serie temporal basándose en los valores históricos de dicha variable. Estos modelos consideran el error intrínseco en las mediciones, así como la influencia de variables externas en el comportamiento de la serie temporal. Debido a que estos modelos son un tipo de modelos lineales, su implementación resulta muy adecuada y robusta con los sistemas computacionales actuales.
Una parte importante de estos modelos es la identificación de los parámetros necesarios para describir la data. Es necesario identificar tres parámetros que influyen en el model: el grado de auto-regresión, el orden de diferenciación, y el número de términos de error a incluirse. Una forma común de evaluar los parámetros utilizados y de realizar aprendizaje automático es por medio de una validación cruzada de los modelos.
La idea principal es partir la información histórica en dos grupos. Un grupo es el utilizado para generar el modelo y este modelo aprendido es utilizado para extrapolar la información correspondiente al otro grupo. Como tenemos la información verdadera de este grupo, podemos contrarrestar las proyecciones con los valores reales de la variable y así evaluar el comportamiento del modelo.
Este procedimiento lo utilizo con las series temporales de cada candidato para general proyecciones de las distribuciones de intención de voto el día de las elecciones. Estos datos se pueden interpretar como un valor esperado de la intención. Así mismo, el modelo genera un intervalo de confianza para las proyecciones, lo cual utilizo para realizar simulaciones. Utilizando el Método de Montecarlo, realizo al rededor de 50,000 simulaciones de las elecciones con los datos obtenidos de los modelos de proyección. Dentro de estas simulaciones se puede obtener la probabilidad de que cada candidato termine de primer o segundo lugar en las distribuciones de intención de voto, y por ende, pase a segunda vuelta.
Utilizando minería de datos, análisis de datos, y proyecciones es posible describir un fenómeno tan complejo como las elecciones. La matemática utilizada en cada etapa es diferente y sirve para propósitos distintos. Combinando todo este análisis, es posible obtener modelos que aprenden y se mejoran cada día, analizando más de 2,000 tweets, al rededor de 900 páginas de Facebook, integrando información de encuestas, Google, y realizando análisis de sentimiento, además de realizar 20,000 mil simulaciones de índices y 50,000 simulaciones de las elecciones diariamente.
En el caso de las elecciones, no poseemos una teoría general que nos permita predecir los resultados de este fenómeno social. Sin embargo, por medio de utilizar datos y encontrar patrones nos es posible realizar estimaciones y proyecciones de lo que pueda acontecer.
Para esto es necesario recolectar datos y analizarlos para ser capaces de realizar proyecciones posteriormente. Anteriormente describí el proceso que utilizo para obtener datos respecto a las elecciones en Guatemala. Así mismo, hablé sobre cómo interpretar los datos, procesarlos, y utilizarlos para generar indicadores. Ahora la tarea es utilizar estos indicadores para proyectar lo que pueda ocurrir el día de las elecciones.
Para esto, utilizo la información generada para cada uno de los candidatos presidenciales como una Serie Temporal. Es decir, cada candidato tiene datos generados diariamente y estos pueden servir para encontrar patrones que puedan extrapolar lo que pueda suceder el día de las elecciones. Una de las técnicas más utilizadas para proyectar series temporales son los métodos auto-regresivos integrados de media móvil. Estos modelos buscan encontrar patrones dentro de la información para realizar un modelo que logre determinar los valores futuros de una serie temporal basándose en los valores históricos de dicha variable. Estos modelos consideran el error intrínseco en las mediciones, así como la influencia de variables externas en el comportamiento de la serie temporal. Debido a que estos modelos son un tipo de modelos lineales, su implementación resulta muy adecuada y robusta con los sistemas computacionales actuales.
Una parte importante de estos modelos es la identificación de los parámetros necesarios para describir la data. Es necesario identificar tres parámetros que influyen en el model: el grado de auto-regresión, el orden de diferenciación, y el número de términos de error a incluirse. Una forma común de evaluar los parámetros utilizados y de realizar aprendizaje automático es por medio de una validación cruzada de los modelos.
La idea principal es partir la información histórica en dos grupos. Un grupo es el utilizado para generar el modelo y este modelo aprendido es utilizado para extrapolar la información correspondiente al otro grupo. Como tenemos la información verdadera de este grupo, podemos contrarrestar las proyecciones con los valores reales de la variable y así evaluar el comportamiento del modelo.
Este procedimiento lo utilizo con las series temporales de cada candidato para general proyecciones de las distribuciones de intención de voto el día de las elecciones. Estos datos se pueden interpretar como un valor esperado de la intención. Así mismo, el modelo genera un intervalo de confianza para las proyecciones, lo cual utilizo para realizar simulaciones. Utilizando el Método de Montecarlo, realizo al rededor de 50,000 simulaciones de las elecciones con los datos obtenidos de los modelos de proyección. Dentro de estas simulaciones se puede obtener la probabilidad de que cada candidato termine de primer o segundo lugar en las distribuciones de intención de voto, y por ende, pase a segunda vuelta.
Utilizando minería de datos, análisis de datos, y proyecciones es posible describir un fenómeno tan complejo como las elecciones. La matemática utilizada en cada etapa es diferente y sirve para propósitos distintos. Combinando todo este análisis, es posible obtener modelos que aprenden y se mejoran cada día, analizando más de 2,000 tweets, al rededor de 900 páginas de Facebook, integrando información de encuestas, Google, y realizando análisis de sentimiento, además de realizar 20,000 mil simulaciones de índices y 50,000 simulaciones de las elecciones diariamente.
Comments
Post a Comment