Skip to main content

Elecciones en Guatemala y Ciencia de Datos

A mediados de este año tendremos nuevas elecciones en Guatemala. Las elecciones siempre son una excelente oportunidad para realizar investigación. Son sucesos que generan mucha expectativa y atención, y por ende, una buena fuente de datos y un muy buen laboratorio para experimentar modelos.

Para las elecciones anteriores, realicé un modelo de proyección que estimaba los resultados de la primera vuelta. Utilizando datos de las encuestas publicadas, hice un modelo utilizando Cadenas de Markov, el cual arrojó datos, con un mes de anticipación, con un margen de un 3% de los valores obtenidos en la primera vuelta. 

Para estas elecciones, he decidido realizar otro análisis, esta vez un poco más a detalle. Para esto, he dividido el proceso en tres partes:
  1. Minería de datos
  2. Análisis de datos
  3. Proyección 

Minería de Datos


En este artículo describiré un poco de la primer parte del proceso. Antes de pensar en modelos de proyección, es importante considerar los datos que servirán para crear el modelo. Para esto lo principal es describir lo que se quiere proyectar y delimitar lo que se busca medir. A la hora de conseguir datos lo que se realiza es una medición. Por lo tanto, es consecuente preguntar ¿qué es lo que se mide? ¿cuál es el error de la medición? 

A grandes rasgos, lo que se busca medir es la intención de voto de la población. Es decir, el porcentaje de la población que apoya a cierto candidato.  Además, un principio básico es que cada vez que se realiza una medición de cualquier fenómeno, existe un error de medición. Este error puede ser debido a varias cosas, como un error de precisión, error del instrumento de medición, error de observación, entre otros. 

Teniendo en cuenta esto, es posible pensar en la minería de datos para las elecciones como tomando varias medidas desde varios ángulos a un objeto que va cambiando poco a poco a través del tiempo, llegando a un valor final cuándo las elecciones sucedan. Para poder describir de una buena manera a un objeto, es necesario realizar varias mediciones de distintos ángulos para poder minimizar el error de medición y para poder capturar la esencia real del objeto. De la misma manera, al tener varios indicadores de intención de voto, es posible llegar a obtener un dato más certero de la intención de voto real de la población.


Si bien los datos de las encuestas son una fuente importante de información, dado el limitado número de encuestas y la esporadicidad de las mismas, resulta conveniente considerar más fuentes de datos. Por lo tanto, considerar la minería de datos para esto es un paso natural para realizar un modelo de proyección. La idea de Sabiduría de los grupos es ampliamente utilizada en economía y negocios para entender ciertos fenómenos sociales. Así mismo, ha sido utilizada para realizar proyecciones en elecciones en diversas partes del mundo. La idea acá es que no es necesario tener acceso a todos los individuos de una población para obtener una percepción de cierto fenómeno. Es decir, es posible obtener una muy buena idea de la percepción de cierto fenómeno en la población a través de analizar datos, por ejemplo, de redes sociales. Aunque no todos los individuos de la población tengan acceso a redes sociales, varios estudios muestran que es posible realizar modelos confiables basándose en datos generados por internet. 

Teniendo esto en cuenta, busqué datos en tres categorías:
  • Presencia (Contenido referente a cada candidato, notas de prensa, etc.)
  • Interacción (Seguidores en redes sociales y alcance de publicaciones)
  • Sentimiento (Apoyo de usuarios hacia un candidato)
Estos datos los obtengo de Google, Twitter y Facebook. Lastimosamente Whatsapp, que es una red social muy importante en Guatemala, es de datos privados y no es posible obtener datos públicos para ser analizados. Facebook es estimada como la red social más importante en Guatemala, por lo tanto es natural obtener datos de la misma. Igualmente, Google resulta una fuente importante de datos, al ser uno de los buscadores más populares hoy en día. Finalmente, Twitter a pesar de ser una red social pequeña en Guatemala, provee de una fuente de datos muy rica en contenido, y muy dinámica, lo cual resulta importante para realizar en análisis. 


En total obtengo datos del número de resultados de búsquedas en Google, así como Tendencias en Google. Además número de seguidores y alcance en Facebook. También obtengo seguidores y alcance en Twitter, así como análisis de sentimiento  general, positivo y negativo en Twitter.

Cada una de estas variables es obtenida una vez al día, revisando al rededor de 60 términos de Google, 70 perfiles de Twitter, 400 páginas de Facebook y 11,000 Tweets diarios. Además se consideran los datos de las encuestas, las cuales hasta el momento son 3. 

Este nada más es uno de los tres pasos en realizar el proceso de proyecciones. Una vez se tengan suficientes datos, es necesario realizar el análisis de datos respectivo para comenzar a interpretar las mediciones actuales, y así poder construir modelos para proyectar valores futuros. 

Comments

Popular posts from this blog

Las elecciones a pesar del netcenter y las fake news

Como es costumbre, desde hace ya dos elecciones atrás  1,2 , he estado analizando datos sobre la intención de voto en las próximas las elecciones en Guatemala. En esta ocasión obtengo que los tres partidos con mayores probabilidades de pasar a segunda vuelta son UNE, CABAL y VALOR-UNIONISTA. Esto lo consigo analizando datos y utilizando modelos matemáticos para su tratamiento. Esta es una labor difícil dada la poca cantidad de datos disponibles en Guatemala, la múltiple cantidad de candidatos y la veracidad de los datos disponibles, entre otras cosas. A pesar de esto, es posible analizar el proceso electoral y obtener conclusiones que puedan darnos una idea de lo que está pasando. Si bien no es posible  predecir  el futuro, es posible  analizar  el presente con la información disponible. Datos, datos, datos Para realizar cualquier tipo de análisis cuantitativo, es necesario tener acceso a una buena cantidad de datos y que estos sean confiables. Varias de las proyecciones más exitosas d

Características generales de vivienda en Guatemala

Más allá de proveer el número de habitantes en Guatemala, el Censo 2018 es una fuente importante de otros datos a nivel nacional que nos permiten describir, entender, y actuar con base a la realidad del país. Una parte importante de los datos censados la conforman los datos referentes a las condiciones de vivienda en Guatemala. El primer dato que encontramos es que se registraron aproximadamente 3.2 millones de viviendas. Esto nos da un promedio de entre 3 y 4 habitantes por vivienda. El Progreso y Zacapa son los departamentos con menos habitantes por vivienda, mientras Quiché y Alta Verapaz son los que más habitantes por vivienda reportan. Doce municipios presentan un promedio arriba de cinco habitantes por vivienda, siendo Concepción, Sololá el más alto con un promedio arriba de 6 habitantes por vivienda. La mitad de estos municipios con alta densidad por vivienda se encuentran en Alta Verapaz, siendo el municipio de Tamahú el más denso. Por otro lado, 15 municipios tienen u

La energía en Guatemala: Generación y consumo.

 El análisis del uso de la energía se ha vuelto un punto central en la discusión del futuro del planeta, especialmente con respecto del cambio climático. Con esto me surgió la inquietud de ver el estado actual de la producción y el consumo de energía en Guatemala.  Si primero nos enfocamos en la energía que se consume en los hogares, tenemos tres actividades principales que consumen energía: la cocina, la iluminación y el calentado de agua. Según datos del más reciente censo, más de la mitad de hogares guatemaltecos utilizan leña para cocinar. Solamente un 1 % utiliza energía eléctrica para esto. Un 44 % utiliza gas propano, siendo el departamento de Guatemala el que presenta el mayor consumo de este recurso. Por otro lado, la mayoría de hogares del altiplano del país utilizan leña para cocinar, en donde en algunos municipios se llega a casi el 90 % de los hogares. Cabe destacar que cocinar con leña está altamente relacionado con la presencia de enfermedades respiratorias. Estas se pos