Datos, datos, datos
Para realizar cualquier tipo de análisis cuantitativo, es necesario tener acceso a una buena cantidad de datos y que estos sean confiables. Varias de las proyecciones más exitosas de elecciones en Estados Unidos se basan en un número grande de datos colectados frecuentemente y organizados de acuerdo a su confiabilidad 3,4.
Tradicionalmente, las proyecciones se realizan utilizando datos de encuestas, aunque muchas veces se agregan datos económicos y sociales5. El primer reto en Guatemala es el poco acceso a este tipo de datos6. El segundo reto, es que de los pocos datos existentes -sobretodo respecto a encuestas- la confiabilidad de los mismos muchas veces es muy cuestionable.
Una manera de mitigar un poco el efecto de ambos aspectos es utilizar minería de datos para complementar la limitante de la cantidad y calidad de datos disponibles. Generalmente esto se enfoca a la utilización de datos de redes sociales 7,8.
Más allá de las estadísticas
Tanto las encuestas como el uso de modelos de proyección se basan en el concepto de inferencia. Esto quiere decir que lo que se busca es inferir, deducir o estimar un parámetro basándonos en los datos que tenemos.
Por ejemplo, una encuesta -bien hecha- busca escoger una muestra representativa de toda la población para luego utilizar métodos estadísticos y estimar intervalos de confianza que puedan darnos una idea del valor real del parámetro que se intenta estudiar. En este sentido, realizar una encuesta es mucho más que preguntarle a un número de personas una pregunta y tabular los resultados. Por esta razón, la gran mayoría de encuestas que se realizan por redes sociales carecen de validez. En primer lugar, generalmente no se tiene control sobre quien responde a la encuesta, y en segundo lugar, raramente se realiza algún análisis estadístico de los datos, usualmente solo se presenta una tabulación de porcentajes.
De igual manera, los modelos de proyección buscan utilizar datos existentes y generar estimaciones de los parámetros buscados basándose en ciertas suposiciones. Incluso los métodos más robustos basados en datos, como regresiones, modelos autoregresivos, redes neuronales, etc., necesitan validación de datos y asumen propiedades como linealidad, ergodicidad, independencia, etc.
¿Qué se puede hacer?
En esta ocasión decidí tomar un rumbo distinto a lo que hice para las elecciones anteriores 1,2. En lugar de utilizar cadenas de Markov o modelos autoregresivos, me enfoqué más en los datos. Esto por la poca cantidad de datos y la ventana temporal más pequeña de la campaña electoral dado el cambio en la Ley Electoral y de Partidos Políticos 9.
Minería de datos
Decidí utilizar datos de redes sociales para agregar a la información de encuestas. Una primera aproximación a medir la intención o seguimiento de los candidatos es medir sus estadísticas en redes sociales (seguidores, likes, comentarios, reproducciones, etc.). Para esto me enfoqué en las redes sociales más predominantes y de las cuales podía tener acceso a datos: Facebook, Instagram, Twitter, TikTok.
Al enfocarse en datos de redes sociales nos enfrentamos al problema de la veracidad de datos. El número de seguidores, comentarios, likes, etc., no necesariamente será orgánico, es decir, es muy probable que tengamos datos generados por bots o netcenter -personas pagadas por generar interacciones-. Otro problema que surge es la falta de datos. No todos los candidatos tienen perfiles en todas las redes sociales. Finalmente, las redes sociales en sí no son totalmente representativas de la población general. Incluso cada red social atrae a distintos perfiles, produciendo un sesgo de representatividad. Por lo tanto tenemos una posible sobre-representación de algunos candidatos y una invisibilización de otros.
Modelos sesgados
La suposición base que realizo para este análisis es que todas las mediciones que obtengo son mediciones sesgadas de un mismo valor de intención. Este sesgo viene dado principalmente por dos motivos: 1) sesgo representativo en la fuente de datos; 2) sesgo intencional dado por actores maliciosos.
El primer tipo de sesgo puede verse a primera vista como más orgánico, ya que ocurre dada la muestra (usuarios) que utilizan cada red. El segundo tipo de sesgo es más esporádico y generalmente no siguen el mismo patrón generalizado de las interacciones orgánicas 10, 11, 12.
Algo de matemática para el alma
Consideremos la matriz de datos \(X\), donde las filas vienen dadas por las variables (encuestas, vistas, likes, etc.) y las columnas son los posibles candidatos. Dado que no todos los candidatos tienen perfiles en todas las redes sociales, ni aparecen en todas las encuestas, tenemos un primer problema: datos faltantes.
La imputación de datos consiste en reemplazar datos faltantes 16. Existen muchas técnicas distintas de imputación de datos. Una de las más comunes -y quizás más perezosas- es reemplazar datos faltantes (NaN) con ceros. Una mejora a esto consiste en utilizar promedios -por ejemplo promedios de columnas- como estimadores de datos faltantes. Esto se conoce como imputación simple. Además de la imputación simple está, como puede esperarse, la imputación múltiple. Esta última fue la que utilicé en mi análisis.
En este caso, la imputación múltiple la realicé obteniendo valores a reemplazar provenientes de una distribución de probabilidad y realizando multiples reemplazos de los valores faltantes. Para cada partido, utilicé una distribución obtenida utilizando los valores históricos de las variables medidas, esto es, si $X_{ij}$ es un valor faltante para la variable $i$ del partido $j$, entonces reemplazamos ese valor con,
$$x_{ij}\sim P_j\,,$$
donde $P_j$ es una distribución de probabilidad con parámetros obtenidos de los datos históricos de las variables del partido $j$. Este proceso se repite para cada uno de los datos faltantes obteniendo así una nueva matriz imputada $\hat{X}$. Para tomar en cuenta los efectos aleatorios de obtener $x_{ij}$ de una distribución de probabilidad, realizamos este proceso varias veces y así se obtiene una colección de $n$ matrices imputadas $\hat{X}$, donde $n$ es el número de imputaciones a realizar.
La idea entonces es analizar cada una de las instancias de la matriz imputada $\hat{X}$ para luego obtener una distribución de resultados (promedio) al estilo montecarlo 17.
Para el siguiente paso recurro a una de mis herramientas favoritas: los valores propios. Estos son altamente utilizados a la hora de trabajar con información, compresión de datos, y filtrado de ruido. Y precisamente estos dos últimos escenarios son los que busco explorar con estos datos. Por un lado, la compresión de datos es una manera de reducir el primer sesgo (representativo) y el filtrado es una manera de reducir el segundo sesgo (malicioso).
Una técnica que incorpora estos elementos es la (SVD) decomposición en valores singulares 13. Esta decomposición separa la información de una matriz en distintas componentes, ordenadas de acuerdo a su importancia, muy similar a la decomposición obtenida en series de Fourier en el procesamiento de señales 18.
$$\hat{X}=U \Sigma V^T\,,$$
donde $\Sigma$ es una matriz diagonal (no necesariamente cuadrada) y $U,V$ son matrices ortogonales. La matrix $\Sigma$ contiene los valores singulares de $\hat{X}$, los cuales los podemos pensar como las cantidades de información de los datos, similar a la cantidad de energía en el espectro de frecuencia de una canción o las componentes principales en la decompocisión de una imagen 14,15.
Si viviéramos en un mundo ideal donde cada muestra de usuarios fuera totalmente representativa de la población y donde no existiera interacción maliciosa, tendríamos que nuestra matriz de datos $X$ (y por ende $\hat{X}$) tendría todas sus filas iguales. Cada variable presentaría la misma distribución de porcentajes de candidatos independientemente de donde fue medida (Facebook, Instagram, Twitter, TikTok, encuestas). Una matriz de este tipo se conoce como de rango 1 19, 20. En palabras simples, una matriz de rango 1 muestra que todas las filas de la matriz están correlacionadas, y por lo tanto, generan la misma información. Dado que no vivimos en un mundo ideal, y que las filas de nuestra matriz $\hat{X}$ no están correlacionadas, tenemos que $\hat{X}$ no es de rango 1, sino de un rango mayor.
La ventaja de utilizar SVD en esta matriz es que al considerar el valor singular más grande obtenemos la mejor aproximación de rango 1 de $\hat{X}$. A este resultado se le conoce como el Teorema de Eckart–Young–Mirsky 21,22. Esto quiere decir que si pensamos que $X$ (y por lo tanto $\hat{X}$) viene de una matriz verdadera (desconocida) de rango 1, $\tilde{X}$, entonces la mejor manera de estimar $\tilde{X}$ a partir de los datos disponibles es por medio de obtener la mejor aproximación de rango 1 de $\hat{X}$.
Este procedimiento nos da $\hat{X}^1$, donde el 1 denota que es la aproximación de rango 1.
Finalmente, otra de las bondades de este procedimiento utilizando SVD es que nos permite generar un sentido de dispersión de los datos medidos con respecto de la estimación de la distribución verdadera. Al considerar la decomposición de $X$ en valores singulares, se puede reescribir esta matriz como suma del valor singular mayor mas los valores menores. Este resultado es una generalización del Teorema Espectral 25,26 de matrices cuadradas,Puesto que este procedimiento me da un resultado para cada instancia imputada $\hat{X}$, al final obtengo una colección de posibles distribuciones de intensión de voto. Con esto obtengo una distribución empírica con la cual realizo un montecarlo para estimar las probabilidades de cada candidato de pasar a segunda ronda.
Todo muy bonito, ¿y ahora qué?
En fin...
Este procedimiento se basa en una cantidad limitada de datos y con un conjunto de factores pequeño. Si bien es posible realizar un análisis más robusto del panorama electoral, es interesante realizar un estudio que busque obtener información más confiable a partir de datos ruidosos.
Las técnicas utilizadas en procesamiento de señales, tratamiento de imágenes y compresión de datos, pueden reducir el impacto del sesgo en los datos así como estimar la cantidad del mismo en las observaciones realizadas. Esto nos ayuda a interpretar los datos de una mejor manera, obteniendo estimaciones más robustas y confiables.
Referencias
- http://towardsthelimitedge.pedromoralesalmazan.com/2015/08/elecciones-2015-guatemala-modelos-de.html
- http://thenumberpad.pedromoralesalmazan.com/2019/05/proyeccion-de-presidente-con.html
- https://fivethirtyeight.com/methodology/how-fivethirtyeights-house-and-senate-models-work/
- https://projects.economist.com/us-2020-forecast/president
- https://www.brookings.edu/articles/forecasting-the-presidential-election-what-can-we-learn-from-the-models/
- https://es.wikipedia.org/wiki/Anexo:Sondeos_de_intenci%C3%B3n_de_voto_para_las_elecciones_generales_de_Guatemala_de_2023
- https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9288921/
- https://link.springer.com/article/10.1007/s12652-020-02423-y
- https://www.tse.org.gt/images/LEPP.pdf
- https://ieeexplore.ieee.org/abstract/document/9373932
- https://link.springer.com/chapter/10.1007/978-3-030-37629-1_3
- https://www.sciencedirect.com/science/article/abs/pii/S004579061731279X
- https://es.wikipedia.org/wiki/Descomposici%C3%B3n_en_valores_singulares
- https://www.sciencedirect.com/science/article/abs/pii/S0167278910002150
- https://www.sciencedirect.com/science/article/abs/pii/016516849190058Q
- https://es.wikipedia.org/wiki/Imputaci%C3%B3n_(estad%C3%ADstica)
- https://www.ibm.com/es-es/topics/monte-carlo-simulation
- https://es.wikipedia.org/wiki/Serie_de_Fourier
- https://inst.eecs.berkeley.edu/~ee127/sp21/livebook/exa_dyads_gen.html
- https://es.wikipedia.org/wiki/Rango_(%C3%A1lgebra_lineal)
- https://web.stanford.edu/class/cs168/l/l9.pdf
- https://en.wikipedia.org/wiki/Low-rank_approximation
- https://www.sciencedirect.com/science/article/abs/pii/S0045790621000823
- https://hdsr.duqduq.org/pub/4tx7h11w/release/2
- https://es.wikipedia.org/wiki/Teorema_de_descomposici%C3%B3n_espectral
- https://inst.eecs.berkeley.edu/~ee127/sp21/livebook/l_svd_def.html
Comments
Post a Comment