Como parte de las actividades de Converciencia, fui parte de un Taller de Datos que buscaba compartir herramientas y métodos de análisis de datos.
En el taller que impartí nos enfocamos a dos métodos que a mi gusto son muy útiles a la hora de analizar gran cantidad de datos: Análisis Factorial (PCA) y Análisis Cluster. Como ejemplo de Análisis Factorial, utilizamos los datos de la evaluación de graduandos del Ministerio de Educación de Guatemala.
Esta evaluación es administrada a todos los estudiantes que se gradúan de nivel medio. Es una evaluación que mide competencias en matemática y lenguaje. Dentro de los datos tomados por el Ministerio de Educación, se encuentra una serie de variables que miden diversos aspectos de cada uno de los estudiantes. Se tiene al rededor de 200 variables que miden desde el tipo de vivienda, la localidad donde viven, la educación de los padres, y otros factores que pudieran influir en el rendimiento de los alumnos.
Con esto realizamos un análisis de componentes principales. La idea es entonces reducir las 200 variables y agruparlas de tal manera que se puedan encontrar los factores que más influyen en los datos. Para ilustrar un poco mejor el poder del PCA, buscamos algo sencillo, y lo realizamos con 2 componentes. A pesar de que el reducir a solo 2 componentes solamente incluye aproximadamente el 11% de la información original, pudimos encontrar cosas interesantes.
En primer lugar, las dos componentes que encontramos agrupan variables de forma interesante:
Componente 1
|
Componente 2
|
Las variables presentes en el Componente 1 (aproximadamente el 8% de la información) son variables que tienen que ver más con la situación socio-económica de los estudiantes y sus familias. Podemos ver que aparecen variables que tienen que ver con el tipo de vivienda, el tipo de construcción, si tienen electrodomésticos, además de las comodidades que tiene. Así mismo, incluye la escolaridad de los padres.
Respecto a la Componente 2, la mayoría de variables principales tienen que ver con la comunicación y el lenguaje. Acá incluye el idioma que se habla en la casa, la capacidad de leerlo y escribirlo, y el uso que se le da. Así mismo, incluye la cantidad de estudio dedicado a cada una de las materias.
A la hora de graficar los datos utilizando las nuevas componentes (Socioeconómico, Lengua Materna) y contrastarlo con los resultados de la evaluación en matemática (1 o verde para Logro y 0 o rojo para No Logro) podemos ver una tendencia interesante. En el primer cuadrante, donde ambas componentes son fuertes, tenemos la mayor cantidad de Logro en la evaluación. Es decir, estudiantes con un buen nivel socioeconómico y un fuerte dominio de la lengua materna tienen un buen desempeño en la evaluación. Incluso, en el extremo derecho vemos que aunque los estudiantes presenten un dominio débil de la lengua materna, si su nivel socioeconómico es fuerte, aún presentan buenos resultados en la evaluación.
De igual manera, del lado izquierdo de la gráfica, vemos que aunque los estudiantes tengan un buen dominio de la lengua materna, si no poseen un buen nivel socieconómico, no presentarán buenos resultados en la evaluación. El dominio de la lengua materna, y los períodos de clase no son suficientes para garantizar el desempeño en la evaluación. Es decir, el factor determinante en el desempeño de los graduandos resulta ser el socioeconómico.
Cabe destacar que este fue un análisis exploratorio que realizamos nada más considerando 2 componentes. Sin embargo, a pesar de la poca cantidad de información capturada por los componentes (al rededor del 11%), es posible encontrar resultados interesantes acerca de los factores que influyen en el desempeño de los estudiantes graduandos.
Comments
Post a Comment