La ciencia de datos es una herramienta que ha venido a revolucionar el mundo actual. Cada vez tenemos acceso a más y más datos, los cuales son generados cada segundo por medio de nuestras interacciones en las redes sociales, así como transacciones en el mundo real.
Como mencioné anteriormente, es necesario tener en cuenta que siempre que se realiza una medición habrá errores de diversos tipos. Por ende, realizar análisis de datos resulta ser necesario luego de obtener los mismos. Con el análisis de datos es posible cuantificar y controlar los errores presentes en las mediciones, así como obtener un estimado más certero de aquello que se está intentando medir.
Tradicionalmente las encuestas han sido los principales indicadores de intención de voto para elecciones. Sin embargo, es posible utilizar la ciencia de datos para obtener y analizar tendencias de la población de una manera complementaria a las encuestas.
Muchas veces las encuestas son objeto de crítica y de incredulidad, debido a que pueden presentar datos inesperados, y a veces hasta inconsistentes. Es necesario recordar que en este aspecto, las encuestas presentan dos funciones: la recolección de datos y la inferencia, a partir de dichos datos, del comportamiento de toda la población. Esto se realiza con cierta significancia estadística, lo cual quiere decir que siempre se está sujeto a un error debido principalmente al azar.
Como mencioné anteriormente, es necesario tener en cuenta que siempre que se realiza una medición habrá errores de diversos tipos. Por ende, realizar análisis de datos resulta ser necesario luego de obtener los mismos. Con el análisis de datos es posible cuantificar y controlar los errores presentes en las mediciones, así como obtener un estimado más certero de aquello que se está intentando medir.
Análisis de datos
¿Cómo podemos confiar en los datos que obtenemos? Una manera de confiar en los datos es realizando un análisis de los errores presentes en las mediciones. En el caso de las encuestas y de los datos obtenidos por medio de redes sociales, estos errores de medición, los que podemos entender como factores que hacen que los datos no sean exactamente un reflejo fiel de la intención de voto, comprenden errores físicos (tabulación de datos, imprecisiones en sistemas de cómputo, datos faltantes, etc.), errores de corrupción de datos (datos generados de forma falsa, manipulación de datos, netcenters, perfiles falsos, etc.) entre otros.
Al ver los datos colectados como distintas mediciones de un fenómeno que posee cierto valor que se desea obtener, es posible tratarlas de manera estadística para obtener valores esperados e incertezas del fenómeno a inferir. Tenemos resultados matemáticos que nos dicen propiedades universales que cumplen los errores de medición (error estándar, teorema del límite central, distribución normal). Con esto, es común asumir que los errores de medición sigan una distribución normal (o t de Student para aumentar el tamaño de las colas). Es decir, las mediciones se aglomeran al rededor del valor real y presentan un error que viene dado en relación del número de mediciones. En otras palabras, entre más datos se obtengan, más confiable es la inferencia sobre el valor real del fenómeno estudiado.
Utilizando estimación estadística es posible estimar los parámetros que describen la distribución de errores de medición para cada uno de los indicadores utilizados. Con la hipótesis de trabajar con datos normalmente distribuidos, los parámetros necesarios para describir los errores son la media y la desviación estándar.
Por lo tanto, tenemos que cada una de diez variables utilizadas para el modelo de las elecciones puede ser descrita por medio de distribuciones normales con distintos parámetros. La idea entonces es doble: filtrar los errores de medición y obtener un valor estimado de la intención de voto a partir de estas diez variables distintas.
Es natural pensar que la variable intención de voto es una combinación de las diez variables utilizadas. Al obtener la variable de intención de voto como combinación de los datos obtenidos, el resultado también tendrá una incertidumbre acarreada de los errores intrínsecos de los datos. Por lo tanto, es necesario realizar el mismo análisis de error de la variable de intención de voto para así obtener la estimación del valor real.
Una herramienta muy utilizada para controlar y analizar errores es el Método de Montecarlo. Este método utiliza la naturaleza aleatoria de los errores para poder realizar simulaciones de datos y así generar distribuciones de variables.
Podemos pensar que estas distribuciones de variables son como tómbolas en donde hay algunos resultados más probables que otros. Al final, cada tómbola da una pelotita y al combinarlas todas se obtiene el resultado final. Al realizar simulaciones con Montecarlo, se verifican los possibles resultados de estos procesos aleatorios para luego obtener un valor estimado de la variable final que se desea obtener.
La ventaja de estas simulaciones es que es posible no solo estimar la intención de voto, sino también se pueden obtener los candidatos que pasarían a segunda vuelta en cada simulación. En otras palabras, al realizar el Montecarlo, es posible simular la elección, o por ende, hallar las agrupaciones políticas que pasarían a segunda vuelta. Este método también está sujeto a la misma teoría de análisis de errores, por lo que al realizar muchas simulaciones la confiabilidad de los resultados crece.
En este caso, se minan datos cada día, y con dichos datos se simulan las elecciones al rededor de 100,000 veces cada día, tomando en cuenta los nuevos datos. De estas 100,000 simulaciones, se obtienen que aspirantes a la presidencia pasarían a segunda vuelta en cada una de las simulaciones, y al final, se obtiene la probabilidad de cada postulante de pasar a segunda vuelta.
Hasta acá, lo que se ha hecho es obtener datos y analizarlos para obtener estimaciones de valores que se apeguen más a la realidad de la intención de voto actual. El paso final entonces debe ser el de realizar proyecciones en base a los valores inferidos, lo cuál explicaré en otra ocasión.
Por pura casualidad encontre tu blog y me parece muy interesante el micro sitio dedicado a las elecciones. Tengo 2 preguntas tecnicas. 1) que librerias utilizas para la visualizacion? y 2) que herramienta utilizas para actualizar la data de Fb?
ReplyDeleteSaludos
1) Para visualizar uso chart.js justo con boostrap. 2) Para obtener info de fb se puede con el graph API y también haciendo data scrapping. Para ambas cosas hay herramientas en Python (que es lo que uso). Para scrapping Scrapy y Beautifulsoup son buenas opciones.
DeleteMil gracias por la respuesta Doc.
DeleteEstuve pendiente tambien de la conferencia remota que sostuvo en dias pasados con estudiantes de la USAC. Me aclare bastante respeto al modelo en sí. Estoy tratando de replicar el ejercicio pero con R que es lo que manejo mejor: falencias del oficio; soy sociologo...
Pero sin miedo a la estadistica XD
Si tuviera documentacion del modelo que realizo hace cuarto años con cadenas de markov, me interesaria mucho poder consultarlo para meterme un poco mas en el tema.
Saludos y mil gracias de nuevo.
Acá está un poco de lo que hice hace 4 años:
Deletehttp://towardsthelimitedge.pedromoralesalmazan.com/2015/08/elecciones-2015-guatemala-modelos-de.html
http://towardsthelimitedge.pedromoralesalmazan.com/2015/08/series-de-tiempo-dan-20-de.html
http://towardsthelimitedge.pedromoralesalmazan.com/2015/09/con-matematicas-no-hay-sorpresas.html
http://towardsthelimitedge.pedromoralesalmazan.com/2015/10/le-creemos-las-encuestas-fcn-56-une-29.html