Skip to main content

Las elecciones a pesar del netcenter y las fake news

Como es costumbre, desde hace ya dos elecciones atrás 1,2, he estado analizando datos sobre la intención de voto en las próximas las elecciones en Guatemala. En esta ocasión obtengo que los tres partidos con mayores probabilidades de pasar a segunda vuelta son UNE, CABAL y VALOR-UNIONISTA. Esto lo consigo analizando datos y utilizando modelos matemáticos para su tratamiento.

Esta es una labor difícil dada la poca cantidad de datos disponibles en Guatemala, la múltiple cantidad de candidatos y la veracidad de los datos disponibles, entre otras cosas. A pesar de esto, es posible analizar el proceso electoral y obtener conclusiones que puedan darnos una idea de lo que está pasando. Si bien no es posible predecir el futuro, es posible analizar el presente con la información disponible.

Datos, datos, datos

Para realizar cualquier tipo de análisis cuantitativo, es necesario tener acceso a una buena cantidad de datos y que estos sean confiables. Varias de las proyecciones más exitosas de elecciones en Estados Unidos se basan en un número grande de datos colectados frecuentemente y organizados de acuerdo a su confiabilidad 3,4.

Tradicionalmente, las proyecciones se realizan utilizando datos de encuestas, aunque muchas veces se agregan datos económicos y sociales5. El primer reto en Guatemala es el poco acceso a este tipo de datos6. El segundo reto, es que de los pocos datos existentes -sobretodo respecto a encuestas- la confiabilidad de los mismos muchas veces es muy cuestionable. 

Una manera de mitigar un poco el efecto de ambos aspectos es utilizar minería de datos para complementar la limitante de la cantidad y calidad de datos disponibles. Generalmente esto se enfoca a la utilización de datos de redes sociales 7,8

Más allá de las estadísticas

Tanto las encuestas como el uso de modelos de proyección se basan en el concepto de inferencia. Esto quiere decir que lo que se busca es inferir, deducir o estimar un parámetro basándonos en los datos que tenemos. 

Por ejemplo, una encuesta -bien hecha- busca escoger una muestra representativa de toda la población para luego utilizar métodos estadísticos y estimar intervalos de confianza que puedan darnos una idea del valor real del parámetro que se intenta estudiar. En este sentido, realizar una encuesta es mucho más que preguntarle a un número de personas una pregunta y tabular los resultados. Por esta razón, la gran mayoría de encuestas que se realizan por redes sociales carecen de validez. En primer lugar, generalmente no se tiene control sobre quien responde a la encuesta, y en segundo lugar, raramente se realiza algún análisis estadístico de los datos, usualmente solo se presenta una tabulación de porcentajes. 

De igual manera, los modelos de proyección buscan utilizar datos existentes y generar estimaciones de los parámetros buscados basándose en ciertas suposiciones. Incluso los métodos más robustos basados en datos, como regresiones, modelos autoregresivos, redes neuronales, etc., necesitan validación de datos y asumen propiedades como linealidad, ergodicidad, independencia, etc. 

¿Qué se puede hacer?

En esta ocasión decidí tomar un rumbo distinto a lo que hice para las elecciones anteriores 1,2. En lugar de utilizar cadenas de Markov o modelos autoregresivos, me enfoqué más en los datos. Esto por la poca cantidad de datos y la ventana temporal más pequeña de la campaña electoral dado el cambio en la Ley Electoral y de Partidos Políticos 9.

Minería de datos

Decidí utilizar datos de redes sociales para agregar a la información de encuestas. Una primera aproximación a medir la intención o seguimiento de los candidatos es medir sus estadísticas en redes sociales (seguidores, likes, comentarios, reproducciones, etc.). Para esto me enfoqué en las redes sociales más predominantes y de las cuales podía tener acceso a datos: Facebook, Instagram, Twitter, TikTok. 

Al enfocarse en datos de redes sociales nos enfrentamos al problema de la veracidad de datos. El número de seguidores, comentarios, likes, etc., no necesariamente será orgánico, es decir, es muy probable que tengamos datos generados por bots o netcenter -personas pagadas por generar interacciones-. Otro problema que surge es la falta de datos. No todos los candidatos tienen perfiles en todas las redes sociales.  Finalmente, las redes sociales en sí no son totalmente representativas de la población general. Incluso cada red social atrae a distintos perfiles, produciendo un sesgo de representatividad. Por lo tanto tenemos una posible sobre-representación de algunos candidatos y una invisibilización de otros. 

A pesar de estos retos, es posible utilizar los datos -imperfectos- obtenidos y realizar un análisis que nos de una idea de lo que pueda estar ocurriendo organicamente. Al final de cuentas, es cuestión de incorporar la suposición de que nuestros datos son sesgados en los modelos que utilicemos. 

Modelos sesgados

La suposición base que realizo para este análisis es que todas las mediciones que obtengo son mediciones sesgadas de un mismo valor de intención. Este sesgo viene dado principalmente por dos motivos: 1) sesgo representativo en la fuente de datos; 2) sesgo intencional dado por actores maliciosos. 

El primer tipo de sesgo puede verse a primera vista como más orgánico, ya que ocurre dada la muestra (usuarios) que utilizan cada red. El segundo tipo de sesgo es más esporádico y generalmente no siguen el mismo patrón generalizado de las interacciones orgánicas 10, 11, 12

Algo de matemática para el alma

Consideremos la matriz de datos \(X\), donde las filas vienen dadas por las variables (encuestas, vistas, likes, etc.) y las columnas son los posibles candidatos. Dado que no todos los candidatos tienen perfiles en todas las redes sociales, ni aparecen en todas las encuestas, tenemos un primer problema: datos faltantes.

Descripción del sistema de imputación múltiple 24.

La imputación de datos consiste en reemplazar datos faltantes 16. Existen muchas técnicas distintas de imputación de datos. Una de las más comunes -y quizás más perezosas- es reemplazar datos faltantes (NaN) con ceros. Una mejora a esto consiste en utilizar promedios -por ejemplo promedios de columnas- como estimadores de datos faltantes. Esto se conoce como imputación simple. Además de la imputación simple está, como puede esperarse, la imputación múltiple. Esta última fue la que utilicé en mi análisis.

En este caso, la imputación múltiple la realicé obteniendo valores a reemplazar provenientes de una distribución de probabilidad y realizando multiples reemplazos de los valores faltantes. Para cada partido, utilicé una distribución obtenida utilizando los valores históricos de las variables medidas, esto es, si $X_{ij}$ es un valor faltante para la variable $i$ del partido $j$, entonces reemplazamos ese valor con, 

$$x_{ij}\sim P_j\,,$$

donde $P_j$ es una distribución de probabilidad con parámetros obtenidos de los datos históricos de las variables del partido $j$. Este proceso se repite para cada uno de los datos faltantes obteniendo así una nueva matriz imputada $\hat{X}$. Para tomar en cuenta los efectos aleatorios de obtener $x_{ij}$ de una distribución de probabilidad, realizamos este proceso varias veces y así se obtiene una colección de $n$ matrices imputadas $\hat{X}$, donde $n$ es el número de imputaciones a realizar.

La idea entonces es analizar cada una de las instancias de la matriz imputada $\hat{X}$ para luego obtener una distribución de resultados (promedio) al estilo montecarlo 17

Para el siguiente paso recurro a una de mis herramientas favoritas: los valores propios. Estos son altamente utilizados a la hora de trabajar con información, compresión de datos, y filtrado de ruido. Y precisamente estos dos últimos escenarios son los que busco explorar con estos datos. Por un lado, la compresión de datos es una manera de reducir el primer sesgo (representativo) y el filtrado es una manera de reducir el segundo sesgo (malicioso). 

Una técnica que incorpora estos elementos es la (SVD) decomposición en valores singulares 13. Esta decomposición separa la información de una matriz en distintas componentes, ordenadas de acuerdo a su importancia, muy similar a la decomposición obtenida en series de Fourier en el procesamiento de señales 18

Al fijar una instancia de la matriz imputada $\hat{X}$, realizamos un SVD apara obtener una expresión de la forma, 
$$\hat{X}=U \Sigma V^T\,,$$
donde $\Sigma$ es una matriz diagonal (no necesariamente cuadrada) y $U,V$ son matrices ortogonales. La matrix $\Sigma$ contiene los valores singulares de $\hat{X}$, los cuales los podemos pensar como las cantidades de información de los datos, similar a la cantidad de energía en el espectro de frecuencia de una canción o las componentes principales en la decompocisión de una imagen 14,15

Proceso de compresión de imágenes usando SVD 23.

Si viviéramos en un mundo ideal donde cada muestra de usuarios fuera totalmente representativa de la población y donde no existiera interacción maliciosa, tendríamos que nuestra matriz de datos $X$ (y por ende $\hat{X}$) tendría todas sus filas iguales. Cada variable presentaría la misma distribución de porcentajes de candidatos independientemente de donde fue medida (Facebook, Instagram, Twitter, TikTok, encuestas). Una matriz de este tipo se conoce como de rango 1 19, 20. En palabras simples, una matriz de rango 1 muestra que todas las filas de la matriz están correlacionadas, y por lo tanto, generan la misma información. Dado que no vivimos en un mundo ideal, y que las filas de nuestra matriz $\hat{X}$ no están correlacionadas, tenemos que $\hat{X}$ no es de rango 1, sino de un rango mayor. 

La ventaja de utilizar SVD en esta matriz es que al considerar el valor singular más grande obtenemos la mejor aproximación de rango 1 de $\hat{X}$. A este resultado se le conoce como el Teorema de Eckart–Young–Mirsky 21,22. Esto quiere decir que si pensamos que $X$ (y por lo tanto $\hat{X}$) viene de una matriz verdadera (desconocida) de rango 1, $\tilde{X}$, entonces la mejor manera de estimar $\tilde{X}$ a partir de los datos disponibles es por medio de obtener la mejor aproximación de rango 1 de $\hat{X}$.

Este procedimiento nos da $\hat{X}^1$, donde el 1 denota que es la aproximación de rango 1. 

Finalmente, otra de las bondades de este procedimiento utilizando SVD es que nos permite generar un sentido de dispersión de los datos medidos con respecto de la estimación de la distribución verdadera. Al considerar la decomposición de $X$ en valores singulares, se puede reescribir esta matriz como suma del valor singular mayor mas los valores menores. Este resultado es una generalización del Teorema Espectral 25,26 de matrices cuadradas,
$$\hat{X}=\hat{X}^1+\hat{X}^{s-1}\,,$$
donde $\hat{X}^{s-1}$ es la matriz obtenida por los demás valores singulares. Puesto que $\hat{X}^1$ es nuestra estimación de la matriz verdadera $\tilde{X}$, podemos interpretar a $\hat{X}^s$ como una matriz de ruido o de desviación. 

Puesto que este procedimiento me da un resultado para cada instancia imputada $\hat{X}$, al final obtengo una colección de posibles distribuciones de intensión de voto. Con esto obtengo una distribución empírica con la cual realizo un montecarlo para estimar las probabilidades de cada candidato de pasar a segunda ronda.

Todo muy bonito, ¿y ahora qué?

Es la hora de las gráficas y los resultados. Utilizando el marco anterior obtengo que los tres partidos con mayor probabilidad de pasar a la segunda vuelta son UNE, CABAL y VALOR-UNIONISTA.


Esto nos da una idea de la intención de voto actual, sin embargo cabe destacar que una segunda vuelta entre cualquier dos de estos tres partidos es altamente probable. Las probabilidades de pasar a segunda vuelta de los demás candidatos son bastante pequeñas comparadas con los tres primeros. Esto viene de la variabilidad de datos de intensión estimados obtenidos de la imputación múltiple. 

Acá observamos que la intensión de voto para los tres primeros candidatos es variable, sin embargo muy parecida. Esta variabilidad viene de la imputación multiple, la cual nos da una distribución empírica de los porcentajes de intensión de voto. En esta gráfica se puede observar una grada con los candidatos  siguientes a los tres punteros(VICTORIA, VOS, SEMILLA). Cabe destacar que VICTORIA presenta una variabilidad (incertidumbre) grande, lo cual puede venir de ruido en la data.

Por medio de comparar la estimación de los valores de distribución de intensión de voto con los valores observados en encuestas y redes sociales, podemos obtener la desviación estándar de las observaciones con respecto de la estimación de la intención verdadera, midiendo de esta manera el posible sesgo y ruido de los valores observados.



Observamos que VICTORIA presenta el mayor porcentaje de variabilidad, seguido de VALOR-UNIONISTA y CABAL. Esto nos sugiere que estos partidos tienen la mayor cantidad de ruido observado en los datos (redes sociales y encuestas). Esto nos puede dar una idea de la confiabilidad de datos observados y de cuales puedan estar sesgados dado a sesgo de representatividad y sesgo malicioso.

En fin...

Este procedimiento se basa en una cantidad limitada de datos y con un conjunto de factores pequeño. Si bien es posible realizar un análisis más robusto del panorama electoral, es interesante realizar un estudio que busque obtener información más confiable a partir de datos ruidosos.

Las técnicas utilizadas en procesamiento de señales, tratamiento de imágenes y compresión de datos, pueden reducir el impacto del sesgo en los datos así como estimar la cantidad del mismo en las observaciones realizadas. Esto nos ayuda a interpretar los datos de una mejor manera, obteniendo estimaciones más robustas y confiables. 

Referencias

  1. http://towardsthelimitedge.pedromoralesalmazan.com/2015/08/elecciones-2015-guatemala-modelos-de.html
  2. http://thenumberpad.pedromoralesalmazan.com/2019/05/proyeccion-de-presidente-con.html
  3. https://fivethirtyeight.com/methodology/how-fivethirtyeights-house-and-senate-models-work/
  4. https://projects.economist.com/us-2020-forecast/president
  5. https://www.brookings.edu/articles/forecasting-the-presidential-election-what-can-we-learn-from-the-models/
  6. https://es.wikipedia.org/wiki/Anexo:Sondeos_de_intenci%C3%B3n_de_voto_para_las_elecciones_generales_de_Guatemala_de_2023
  7. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9288921/
  8. https://link.springer.com/article/10.1007/s12652-020-02423-y
  9. https://www.tse.org.gt/images/LEPP.pdf
  10. https://ieeexplore.ieee.org/abstract/document/9373932
  11. https://link.springer.com/chapter/10.1007/978-3-030-37629-1_3
  12. https://www.sciencedirect.com/science/article/abs/pii/S004579061731279X
  13. https://es.wikipedia.org/wiki/Descomposici%C3%B3n_en_valores_singulares
  14. https://www.sciencedirect.com/science/article/abs/pii/S0167278910002150
  15. https://www.sciencedirect.com/science/article/abs/pii/016516849190058Q
  16. https://es.wikipedia.org/wiki/Imputaci%C3%B3n_(estad%C3%ADstica)
  17. https://www.ibm.com/es-es/topics/monte-carlo-simulation
  18. https://es.wikipedia.org/wiki/Serie_de_Fourier
  19. https://inst.eecs.berkeley.edu/~ee127/sp21/livebook/exa_dyads_gen.html
  20. https://es.wikipedia.org/wiki/Rango_(%C3%A1lgebra_lineal)
  21. https://web.stanford.edu/class/cs168/l/l9.pdf
  22. https://en.wikipedia.org/wiki/Low-rank_approximation
  23. https://www.sciencedirect.com/science/article/abs/pii/S0045790621000823
  24. https://hdsr.duqduq.org/pub/4tx7h11w/release/2
  25. https://es.wikipedia.org/wiki/Teorema_de_descomposici%C3%B3n_espectral
  26. https://inst.eecs.berkeley.edu/~ee127/sp21/livebook/l_svd_def.html

Comments

Popular posts from this blog

Características generales de vivienda en Guatemala

Más allá de proveer el número de habitantes en Guatemala, el Censo 2018 es una fuente importante de otros datos a nivel nacional que nos permiten describir, entender, y actuar con base a la realidad del país. Una parte importante de los datos censados la conforman los datos referentes a las condiciones de vivienda en Guatemala. El primer dato que encontramos es que se registraron aproximadamente 3.2 millones de viviendas. Esto nos da un promedio de entre 3 y 4 habitantes por vivienda. El Progreso y Zacapa son los departamentos con menos habitantes por vivienda, mientras Quiché y Alta Verapaz son los que más habitantes por vivienda reportan. Doce municipios presentan un promedio arriba de cinco habitantes por vivienda, siendo Concepción, Sololá el más alto con un promedio arriba de 6 habitantes por vivienda. La mitad de estos municipios con alta densidad por vivienda se encuentran en Alta Verapaz, siendo el municipio de Tamahú el más denso. Por otro lado, 15 municipios tienen u

La energía en Guatemala: Generación y consumo.

 El análisis del uso de la energía se ha vuelto un punto central en la discusión del futuro del planeta, especialmente con respecto del cambio climático. Con esto me surgió la inquietud de ver el estado actual de la producción y el consumo de energía en Guatemala.  Si primero nos enfocamos en la energía que se consume en los hogares, tenemos tres actividades principales que consumen energía: la cocina, la iluminación y el calentado de agua. Según datos del más reciente censo, más de la mitad de hogares guatemaltecos utilizan leña para cocinar. Solamente un 1 % utiliza energía eléctrica para esto. Un 44 % utiliza gas propano, siendo el departamento de Guatemala el que presenta el mayor consumo de este recurso. Por otro lado, la mayoría de hogares del altiplano del país utilizan leña para cocinar, en donde en algunos municipios se llega a casi el 90 % de los hogares. Cabe destacar que cocinar con leña está altamente relacionado con la presencia de enfermedades respiratorias. Estas se pos