Skip to main content

Más allá de las encuestas: El Análisis de datos

La ciencia de datos es una herramienta que ha venido a revolucionar el mundo actual. Cada vez tenemos acceso a más y más datos, los cuales son generados cada segundo por medio de nuestras interacciones en las redes sociales, así como transacciones en el mundo real.


Tradicionalmente las encuestas han sido los principales indicadores de intención de voto para elecciones. Sin embargo, es posible utilizar la ciencia de datos para obtener y analizar tendencias de la población de una manera complementaria a las encuestas. 

Muchas veces las encuestas son objeto de crítica y de incredulidad, debido a que pueden presentar datos inesperados, y a veces hasta inconsistentes. Es necesario recordar que en este aspecto, las encuestas presentan dos funciones: la recolección de datos y la inferencia, a partir de dichos datos, del comportamiento de toda la población. Esto se realiza con cierta significancia estadística, lo cual quiere decir que siempre se está sujeto a un error debido principalmente al azar. 





Como mencioné anteriormente, es necesario tener en cuenta que siempre que se realiza una medición habrá errores de diversos tipos.  Por ende, realizar análisis de datos resulta ser necesario luego de obtener los mismos. Con el análisis de datos es posible cuantificar y controlar los errores presentes en las mediciones, así como obtener un estimado más certero de aquello que se está intentando medir.

Análisis de datos

¿Cómo podemos confiar en los datos que obtenemos? Una manera de confiar en los datos es realizando un análisis de los errores presentes en las mediciones. En el caso de las encuestas y de los datos obtenidos por medio de redes sociales, estos errores de medición, los que podemos entender como factores que hacen que los datos no sean exactamente un reflejo fiel de la intención de voto, comprenden errores físicos (tabulación de datos, imprecisiones en sistemas de cómputo, datos faltantes, etc.), errores de corrupción de datos (datos generados de forma falsa, manipulación de datos, netcenters, perfiles falsos, etc.) entre otros.


Al ver los datos colectados como distintas mediciones de un fenómeno que posee cierto valor que se desea obtener, es posible tratarlas de manera estadística para obtener valores esperados e incertezas del fenómeno a inferir. Tenemos resultados matemáticos que nos dicen propiedades universales que cumplen los errores de medición (error estándar, teorema del límite central, distribución normal). Con esto, es común asumir que los errores de medición sigan una distribución normal (o t de Student para aumentar el tamaño de las colas). Es decir, las mediciones se aglomeran al rededor del valor real y presentan un error que viene dado en relación del número de mediciones. En otras palabras, entre más datos se obtengan, más confiable es la inferencia sobre el valor real del fenómeno estudiado.

Utilizando estimación estadística es posible estimar los parámetros que describen la distribución de errores de medición para cada uno de los indicadores utilizados. Con la hipótesis de trabajar con datos normalmente distribuidos, los parámetros necesarios para describir los errores son la media y la desviación estándar


Por lo tanto, tenemos que cada una de diez variables utilizadas para el modelo de las elecciones puede ser descrita por medio de distribuciones normales con distintos parámetros. La idea entonces es doble: filtrar los errores de medición y obtener un valor estimado de la intención de voto a partir de estas diez variables distintas.

Es natural pensar que la variable intención de voto es una combinación de las diez variables utilizadas. Al obtener la variable de intención de voto como combinación de los datos obtenidos, el resultado también tendrá una incertidumbre acarreada de los errores intrínsecos de los datos. Por lo tanto, es necesario realizar el mismo análisis de error de la variable de intención de voto para así obtener la estimación del valor real. 

Una herramienta muy utilizada para controlar y analizar errores es el Método de Montecarlo. Este método utiliza la naturaleza aleatoria de los errores para poder realizar simulaciones de datos y así generar distribuciones de variables. 


Podemos pensar que estas distribuciones de variables son como tómbolas en donde hay algunos resultados más probables que otros. Al final, cada tómbola da una pelotita y al combinarlas todas se obtiene el resultado final. Al realizar simulaciones con Montecarlo, se verifican los possibles resultados de estos procesos aleatorios para luego obtener un valor estimado de la variable final que se desea obtener.

La ventaja de estas simulaciones es que es posible no solo estimar la intención de voto, sino también se pueden obtener los candidatos que pasarían a segunda vuelta en cada simulación. En otras palabras, al realizar el Montecarlo, es posible simular la elección, o por ende, hallar las agrupaciones políticas que pasarían a segunda vuelta. Este método también está sujeto a la misma teoría de análisis de errores, por lo que al realizar muchas simulaciones la confiabilidad de los resultados crece.

En este caso, se minan datos cada día, y con dichos datos se simulan las elecciones al rededor de 100,000 veces cada día, tomando en cuenta los nuevos datos. De estas 100,000 simulaciones, se obtienen que aspirantes a la presidencia pasarían a segunda vuelta en cada una de las simulaciones, y al final, se obtiene la probabilidad de cada postulante de pasar a segunda vuelta. 

Hasta acá, lo que se ha hecho es  obtener datos y analizarlos para obtener estimaciones de valores que se apeguen más a la realidad de la intención de voto actual. El paso final entonces debe ser el de realizar proyecciones en base a los valores inferidos, lo cuál explicaré en otra ocasión. 

Comments

  1. Por pura casualidad encontre tu blog y me parece muy interesante el micro sitio dedicado a las elecciones. Tengo 2 preguntas tecnicas. 1) que librerias utilizas para la visualizacion? y 2) que herramienta utilizas para actualizar la data de Fb?

    Saludos

    ReplyDelete
    Replies
    1. 1) Para visualizar uso chart.js justo con boostrap. 2) Para obtener info de fb se puede con el graph API y también haciendo data scrapping. Para ambas cosas hay herramientas en Python (que es lo que uso). Para scrapping Scrapy y Beautifulsoup son buenas opciones.

      Delete
    2. Mil gracias por la respuesta Doc.
      Estuve pendiente tambien de la conferencia remota que sostuvo en dias pasados con estudiantes de la USAC. Me aclare bastante respeto al modelo en sí. Estoy tratando de replicar el ejercicio pero con R que es lo que manejo mejor: falencias del oficio; soy sociologo...
      Pero sin miedo a la estadistica XD

      Si tuviera documentacion del modelo que realizo hace cuarto años con cadenas de markov, me interesaria mucho poder consultarlo para meterme un poco mas en el tema.

      Saludos y mil gracias de nuevo.

      Delete
    3. Acá está un poco de lo que hice hace 4 años:

      http://towardsthelimitedge.pedromoralesalmazan.com/2015/08/elecciones-2015-guatemala-modelos-de.html

      http://towardsthelimitedge.pedromoralesalmazan.com/2015/08/series-de-tiempo-dan-20-de.html

      http://towardsthelimitedge.pedromoralesalmazan.com/2015/09/con-matematicas-no-hay-sorpresas.html

      http://towardsthelimitedge.pedromoralesalmazan.com/2015/10/le-creemos-las-encuestas-fcn-56-une-29.html

      Delete

Post a Comment

Popular posts from this blog

Características generales de vivienda en Guatemala

Más allá de proveer el número de habitantes en Guatemala, el Censo 2018 es una fuente importante de otros datos a nivel nacional que nos permiten describir, entender, y actuar con base a la realidad del país. Una parte importante de los datos censados la conforman los datos referentes a las condiciones de vivienda en Guatemala. El primer dato que encontramos es que se registraron aproximadamente 3.2 millones de viviendas. Esto nos da un promedio de entre 3 y 4 habitantes por vivienda. El Progreso y Zacapa son los departamentos con menos habitantes por vivienda, mientras Quiché y Alta Verapaz son los que más habitantes por vivienda reportan. Doce municipios presentan un promedio arriba de cinco habitantes por vivienda, siendo Concepción, Sololá el más alto con un promedio arriba de 6 habitantes por vivienda. La mitad de estos municipios con alta densidad por vivienda se encuentran en Alta Verapaz, siendo el municipio de Tamahú el más denso. Por otro lado, 15 municipios tienen u

Las elecciones a pesar del netcenter y las fake news

Como es costumbre, desde hace ya dos elecciones atrás  1,2 , he estado analizando datos sobre la intención de voto en las próximas las elecciones en Guatemala. En esta ocasión obtengo que los tres partidos con mayores probabilidades de pasar a segunda vuelta son UNE, CABAL y VALOR-UNIONISTA. Esto lo consigo analizando datos y utilizando modelos matemáticos para su tratamiento. Esta es una labor difícil dada la poca cantidad de datos disponibles en Guatemala, la múltiple cantidad de candidatos y la veracidad de los datos disponibles, entre otras cosas. A pesar de esto, es posible analizar el proceso electoral y obtener conclusiones que puedan darnos una idea de lo que está pasando. Si bien no es posible  predecir  el futuro, es posible  analizar  el presente con la información disponible. Datos, datos, datos Para realizar cualquier tipo de análisis cuantitativo, es necesario tener acceso a una buena cantidad de datos y que estos sean confiables. Varias de las proyecciones más exitosas d

La energía en Guatemala: Generación y consumo.

 El análisis del uso de la energía se ha vuelto un punto central en la discusión del futuro del planeta, especialmente con respecto del cambio climático. Con esto me surgió la inquietud de ver el estado actual de la producción y el consumo de energía en Guatemala.  Si primero nos enfocamos en la energía que se consume en los hogares, tenemos tres actividades principales que consumen energía: la cocina, la iluminación y el calentado de agua. Según datos del más reciente censo, más de la mitad de hogares guatemaltecos utilizan leña para cocinar. Solamente un 1 % utiliza energía eléctrica para esto. Un 44 % utiliza gas propano, siendo el departamento de Guatemala el que presenta el mayor consumo de este recurso. Por otro lado, la mayoría de hogares del altiplano del país utilizan leña para cocinar, en donde en algunos municipios se llega a casi el 90 % de los hogares. Cabe destacar que cocinar con leña está altamente relacionado con la presencia de enfermedades respiratorias. Estas se pos