A mediados de este año tendremos nuevas elecciones en Guatemala. Las elecciones siempre son una excelente oportunidad para realizar investigación. Son sucesos que generan mucha expectativa y atención, y por ende, una buena fuente de datos y un muy buen laboratorio para experimentar modelos.
Para las elecciones anteriores, realicé un modelo de proyección que estimaba los resultados de la primera vuelta. Utilizando datos de las encuestas publicadas, hice un modelo utilizando Cadenas de Markov, el cual arrojó datos, con un mes de anticipación, con un margen de un 3% de los valores obtenidos en la primera vuelta.
Para estas elecciones, he decidido realizar otro análisis, esta vez un poco más a detalle. Para esto, he dividido el proceso en tres partes:
- Minería de datos
- Análisis de datos
- Proyección
Minería de Datos
En este artículo describiré un poco de la primer parte del proceso. Antes de pensar en modelos de proyección, es importante considerar los datos que servirán para crear el modelo. Para esto lo principal es describir lo que se quiere proyectar y delimitar lo que se busca medir. A la hora de conseguir datos lo que se realiza es una medición. Por lo tanto, es consecuente preguntar ¿qué es lo que se mide? ¿cuál es el error de la medición?
A grandes rasgos, lo que se busca medir es la intención de voto de la población. Es decir, el porcentaje de la población que apoya a cierto candidato. Además, un principio básico es que cada vez que se realiza una medición de cualquier fenómeno, existe un error de medición. Este error puede ser debido a varias cosas, como un error de precisión, error del instrumento de medición, error de observación, entre otros.
Teniendo en cuenta esto, es posible pensar en la minería de datos para las elecciones como tomando varias medidas desde varios ángulos a un objeto que va cambiando poco a poco a través del tiempo, llegando a un valor final cuándo las elecciones sucedan. Para poder describir de una buena manera a un objeto, es necesario realizar varias mediciones de distintos ángulos para poder minimizar el error de medición y para poder capturar la esencia real del objeto. De la misma manera, al tener varios indicadores de intención de voto, es posible llegar a obtener un dato más certero de la intención de voto real de la población.
Si bien los datos de las encuestas son una fuente importante de información, dado el limitado número de encuestas y la esporadicidad de las mismas, resulta conveniente considerar más fuentes de datos. Por lo tanto, considerar la minería de datos para esto es un paso natural para realizar un modelo de proyección. La idea de Sabiduría de los grupos es ampliamente utilizada en economía y negocios para entender ciertos fenómenos sociales. Así mismo, ha sido utilizada para realizar proyecciones en elecciones en diversas partes del mundo. La idea acá es que no es necesario tener acceso a todos los individuos de una población para obtener una percepción de cierto fenómeno. Es decir, es posible obtener una muy buena idea de la percepción de cierto fenómeno en la población a través de analizar datos, por ejemplo, de redes sociales. Aunque no todos los individuos de la población tengan acceso a redes sociales, varios estudios muestran que es posible realizar modelos confiables basándose en datos generados por internet.
Teniendo esto en cuenta, busqué datos en tres categorías:
- Presencia (Contenido referente a cada candidato, notas de prensa, etc.)
- Interacción (Seguidores en redes sociales y alcance de publicaciones)
- Sentimiento (Apoyo de usuarios hacia un candidato)
Estos datos los obtengo de Google, Twitter y Facebook. Lastimosamente Whatsapp, que es una red social muy importante en Guatemala, es de datos privados y no es posible obtener datos públicos para ser analizados. Facebook es estimada como la red social más importante en Guatemala, por lo tanto es natural obtener datos de la misma. Igualmente, Google resulta una fuente importante de datos, al ser uno de los buscadores más populares hoy en día. Finalmente, Twitter a pesar de ser una red social pequeña en Guatemala, provee de una fuente de datos muy rica en contenido, y muy dinámica, lo cual resulta importante para realizar en análisis.
En total obtengo datos del número de resultados de búsquedas en Google, así como Tendencias en Google. Además número de seguidores y alcance en Facebook. También obtengo seguidores y alcance en Twitter, así como análisis de sentimiento general, positivo y negativo en Twitter.
Cada una de estas variables es obtenida una vez al día, revisando al rededor de 60 términos de Google, 70 perfiles de Twitter, 400 páginas de Facebook y 11,000 Tweets diarios. Además se consideran los datos de las encuestas, las cuales hasta el momento son 3.
Este nada más es uno de los tres pasos en realizar el proceso de proyecciones. Una vez se tengan suficientes datos, es necesario realizar el análisis de datos respectivo para comenzar a interpretar las mediciones actuales, y así poder construir modelos para proyectar valores futuros.
Comments
Post a Comment