-
+
JUAN BARBOSA

PISA: Una mirada socrática

José Saturnino Martínez García

19 mins - 12 de Enero de 2024, 07:00

Días de ruido y furia en torno a PISA. Pero entre tanta energía se echa en falta entender lo básico: qué mide PISA. Para poder saber qué interpretaciones son compatibles con los datos, es necesario comprenderlos. Las competencias están evaluadas mediante unas pruebas complejas, cuya puntuación depende de lo que respondan los estudiantes (teoría de la respuesta al ítem), y por tanto, un punto de PISA no está definido a ninguna sutancia más allá de las respuestas en la propia prueba. De forma arbitraria se diseña que los resultados se distribuyan normalmente, como una campana (Gráfico 1), de media 500 y desviación típica 100 en el año 2000. Por tanto, un 500 no tiene nada que ver con un 5 en un examen. Solo nos indica que entre 400 y 600 puntos se espera que estén unos dos tercios del alumnado de la OCDE. En otra prueba similar, PIAAC, la media se ha fijado en 250, por ejemplo. ¿Qué significa uno de estos puntos? La definición más técnica consiste en acotar las puntuaciones en ocho grupos, y establecer el nivel de competencias asociado a cada grupo. Cada nivel de competencias es de un intervalo de unos 60 - 70 puntos. Estar por debajo de unos 410 – 420 puntos es carecer de un mínimo básico para desenvolverse en la vida adulta, a juicio del informe. Bajo esta puntuación la proporción de alumnado en España es similar a la de nuestro entorno (27% España y 26% UE). En el nivel más alto, de excelencia (a partir de 607), la proporción de alumnado español es más baja (6 y 8%, respectivamente).
 
Gráfico 1. Distribución de la competencia matemática del alumnado que la OCDE
 
PISA ha propuesto comparaciones más intuitivas, pero también más arbitrarias. En ediciones anteriores, se estableció que unos 35 – 40 puntos equivalen a un curso de escolarización. Esta comparación se propuso estudiando las diferencias entre repetidores y no repetidores, y asumiendo que se corresponde a lo aprendido en un curso, y no a la capacidad y/o esfuerzo del alumnado, lo cual es un supuesto cuestionable. En esta edición, el añadido de un año de escolarización se ha visto reducido a unos 20 puntos. Para llegar a este punto se citan estudios en los que se especifica que estos 20 puntos son una aproximación problemática, pues hay gran variación de esta estimación entre países y ediciones de PISA. Además, se aclara que no podemos establecer proporcionalidad entre puntos y curso, en el sentido de que no es correcto afirma que 10 puntos son medio curso. Sin embargo, la propia OCDE contraviene estas indicaciones técnicas en su comunicación con la prensa. 

Esta devaluación del efecto de la escolarización sobre las competencias nos lleva a la interpretación de que un año de escolarización ni siquiera sube el nivel de competencias en medio nivel (unos 30 puntos). Por mucho que la escuela se esfuerce, si el alumno empezó el curso con dificultades en la lectura, se quedará con dificultades en la lectura al acabar el curso, si asumimos estos supuestos. Como vemos, atribuir una magnitud de puntos a un curso académico es una tarea errática y cuya interpretación oscurece más que aclara, aunque es efectista.

Otra aproximación es recurrir a lo que nos dice la estadística en general. Empecemos por la consideración de que estamos ante una prueba que se realiza a una muestra aleatoria de estudiantes. Por tanto, los resultados son estimaciones, sujetas a error probabilístico. Deberíamos centrarnos solo en aquellas diferencias que podamos descartar con cierto nivel de confianza que escapan al azar. Por ello, es necesario interpretar las medias como un intervalo, y no como una estimación puntual. Si las diferencias no son significativas, mejor abstenerse de interpretarlas. 

[Recibe los análisis de más actualidad en tu correo electrónico o en tu teléfono a través de nuestro canal de Telegram]

Una vez comprobado que lo más probable es que las diferencias observadas no sean aleatorias, debemos interpretar el tamaño del efecto. Es decir, un efecto puede ser significativo, pero tan pequeño que nos puede parecer poco relevante. ¿Cómo establecemos qué es un tamaño sustancial? Dependerá de la sustancia. El problema es que PISA no tiene más sustancia que su propio resultado. Podemos recurrir a criterios más genéricos, como saber si un efecto dado se aparta mucho del promedio. Por ejemplo, diez euros de diferencia pueden ser mucho si estamos estudiando salario por hora, pero pueden ser irrelevantes si el objeto de estudio es salario bruto anual. Más o menos por convención, se considera un efecto pequeño apartarse menos de 0,2 desviaciones típicas, 0,5 un efecto medio y 0,8 un efecto grande. 

Otra precaución a tener en cuenta es que, como todo instrumento, PISA está sujeto a fallos. Buena sospecha tenemos de que esto ya ha sucedido, pues en 2006 hubo una bajada generalizada en lectura, más sustancial en España (el resultado más bajo en todo este tiempo, 461). En la siguiente oleada, hubo recuperación en casi todos los países. Más allá de un problema de “calibración” en la prueba, no hay una explicación consistente para este vaivén.

Combinando la significación estadística y el tamaño del efecto, contamos con una “brújula” para movernos en PISA, pero seguimos con dificultad para entender cómo interpretar los puntos de la prueba. Por ello sugiero tratar los puntos PISA como si fuesen otras magnitudes con las que estamos acostumbrados en la vida cotidiana. Piense en algo fácil de medir, de entender y que se distribuya con normalidad, como en el Gráfico 1 (se muestra la distribución de la competencia en matemáticas en el conjunto del alumnado de la OCDE que participa en la prueba). La estatura de la población adulta puede ser una buena característica, pero puede pensar en otra de la que conozca la media y lo que los datos se apartan de dicha media (la desviación típica). Si suponemos un grupo de personas adultas, que midan de media 170 cm, y que aproximadamente dos tercios de ellas estén entre 160 y 180 cm., ya tenemos una distribución con la que comparar las puntuaciones de PISA. A partir de esta simulación (realizada con la propiedad de normalizar puntuaciones, que consiste en una regla de tres de la distancia a la media sobre la dispersión de los datos), podemos establecer que diez puntos PISA son un centímetro de estatura, que un nivel de PISA son unos seis centímetros, que dos centímetros suponen diferencias débiles, medianas entre 5 y 8 cm, y grandes por encima; medir 162 o menos se considera como no contar con competencias suficientes para la vida adulta.

Las puntuaciones de España en estos 22 años suelen estar entre 167 y 169 centímetros, a más de un nivel PISA de la zona de “peligro”, en la frontera del nivel competencial en el que están los países de nuestro entorno. Las variaciones entre oleadas de PISA están, en general, en torno a una décima de desviación típica, con alguna excepción. Es decir, entre prueba y prueba, andamos subiendo o bajando un “centímetro de estatura”, como mucho. Si comparamos con los años que el último informe considera que es posible comparar. En matemáticas, el resultado de 2022, 473, es similar al de 2003 y 2006, e inferior a 2015. En lectura, en 2022 se obtuvo un 474, estadísticamente empatado con 2003, 2006 y 2009; en ciencias, los resultados han sido de 485, inferior a los de 2012 y 2015. El tamaño de estos efectos está en el orden de “un centímetro”. Los resultados de 2022 estadísticamente son similares a los resultados de los “años malos”, pero no peores. Los resultados están en la franja baja, y no avanzamos. Estamos en época de “vacas flacas”, no más flacas que en otras ocasiones. El informe PISA atribuye el efecto negativo de la pandemia en unos 18 puntos en promedio, 10, para España. En resumen, las vacas gordas son un centímetro más altas que las flacas, y 2022 fue año de vacas flacas.

Es habitual que se comparen los resultados entre países. Pero esta comparación es más problemática de lo que nos dice la intuición. Para empezar, si comparamos con la OCDE, desde 2000 se le han incorporado ocho países, cuyos resultados medios son unos 20 puntos inferiores a los países “veteranos”, y bajan en unos cinco puntos el conjunto de la OCDE de 2022. En segundo lugar, en estadística se deben comparar unidades homogéneas, es decir, con el mismo “metabolismo” o “función de producción”, pues solo de esa forma podemos asumir el supuesto de que las variaciones en unas características están asociadas con efectos previsibles en otras. Podemos aplicar estadística si comparamos ratones con ratones, o fábricas de coches, pero no ratones con ranas o fábricas de coches con fábricas de ordenadores. Bajar la humedad del ambiente produce efectos similares a los ratones o a las ranas, pero no a los dos grupos. Por tanto, al comparar países, estamos suponiendo que su metabolismo es similar. Cuando miramos a Singapur, contemplamos un país cuya superficie es apenas un poco más grande que Menorca, en el que viven 5,9 millones de personas (más que en toda la Comunidad Valenciana) y que, de hecho, es una dictadura. No parece que otros países tengan su metabolismo.

En tercer lugar, el propio informe PISA, en sus sucesivas oleadas, viene estableciendo que las diferencias de rendimientos en la OCDE se deben a diferencias entre países en un 10 – 12 %. El resto, se debe, en un tercio, a las diferencias entre centros educativos, y en dos tercios, a las diferencias entre estudiantes. Quizá esto explique la fuerte asociación de los emigrantes con los resultados de las pruebas en sus países de origen, y no tanto con los de recepción. Los coreanos lo hacen muy bien en Corea del Sur. Pero también en EEUU, cuando emigran. O los turcos, obtienen resultados parecidos a los de Turquía cuando viven en Alemania. Al mirar cómo es el sistema educativo coreano no se nos debe olvidar lo que, según PISA, más influye en sus resultados: los estudiantes coreanos. Estos resultados también relativizan mucho la importancia atribuida a la diferencia entre el idioma materno y el del país de recepción. Parece que pesa más la tradición educativa del país del origen que sus particularidades idiomáticas. 

Por último, al comparar las sucesivas oleadas con el promedio de la OCDE, debemos tener en cuenta que entre 2000 y 2022 ocho países se han sumado a esta organización, con un promedio de unos 20 puntos inferior a los que ya estaban; este añadido baja en unos cinco puntos el promedio de la OCDE.


Por tanto, si bien no tiene mucho sentido ponerse a comparar países, como si todos fuesen ratones, sin tener en cuenta que también hay ranas y sardinas, sí puede ser ilustrativo estudiar la evolución de algunos, pues, en última instancia, los estamos comparando consigo mismos. Veamos qué ha sucedido con el otrora líder europeo, Finlandia; también nos ayudará observar al líder del mundo libre, EEUU, pues sus puntuaciones están emparejadas con las de España desde el inicio de PISA (2000) o pruebas anteriores, como TIMSS 1995 (administrada a alumnado de 7º y 8º de EGB). Podemos comparar nuestra evolución de “estatura” matemática en el Gráfico 2 con ambos países.

Gráfico 2. Evolución de las competencias matemáticas, con margen del error al 95% (área sombreada), medida como estatura
 
Los fineses han pasado de ser altos a acercarse a la media. Todos esos viajes a Helsinki especialmente pensados para aprender del milagro finés sin saber que estaban asistiendo en vivo y en directo a su fin. Ahora hay quienes se entusiasman con el milagro estonio. No sobra recordar que, si Castilla y León fuese un país, tendría más o menos los mismos habitantes y también buenos resultados. Y que dichos resultados educativos los consigue con profesores funcionarios, contenidos curriculares similares al resto de España, un peso de la educación pública similar al del conjunto de España (66%) y leyes (y cambios de leyes) como en el resto del territorio nacional. Posiblemente, sea más fácil aprender de dicha comunidad autónoma que de Estonia. Pero también debemos tener en cuenta que el mapa de la alfabetización de España a mitad del siglo XIX es un buen predictor de las puntuaciones PISA (hasta que navarros, catalanes y vascos empezaron a bajar). Y, además, como nos recuerdan los anuncios de inversión en bolsa, éxitos pasados no garantizan éxitos futuros.

En cuanto a la comparación entre la sociedad de España y EEUU, las diferencias son innumerables (metabolismos diferentes). Además, en casi el cuarto de siglo desde que existe PISA, los cambios históricos han sido enormes (32 años, si nos vamos a TIMSS). La expansión de la tecnología, su entrada en las aulas, la Gran Recesión (con recortes de inversión pública en educación), políticas educativas totalmente diferentes en EEUU y en España, varios cambios normativos en España... En el caso de EEUU, cabe destacar que la ley No Child Left Behind, aprobada por Bush jr., comenzó a aplicarse en 2003, hasta 2015. Una norma centrada en realizar test estandarizados al alumnado con importantes consecuencias en función de los resultados, pudiendo llegar a cerrar centros o despedir profesorado. El efecto de tal revolución política es más bien nulo sobre las competencias evaluadas en PISA, aunque haya dislocado la vida en las aulas. El paso de la Ley General de Educación (TIMSS en 1995) a la LOGSE tampoco afectó a nuestro “hermanamiento” con EEUU. Enlazando TIMSS con PISA, no hay diferencia entre la LGE y la LOGSE (lo que corrobora los resultados de la investigación realizada en su momento comparando ambos modelos).

En el caso de España, además, en una década (2000 a 2010) pasamos de casi no tener inmigrantes a tener unos cinco millones, un crecimiento excepcional tanto a nivel internacional como histórico. Ni la historia ni la política educativa ni la demografía han hecho que en los últimos 30 años los resultados educativos del alumnado de EEUU y de España se aparten sustancialmente. Ahí estamos, entre 167 y 169 centímetros, por más que el mundo cambie y las dos sociedades sean tan diferentes.

Hay quienes consideran que PISA es una especie de calificación de la calidad de capital humano, similar a la calificación de la deuda. Vaticinan todo tipo de males para España por nuestro nivel de uno o dos centímetros bajo la media de la OCDE. Pero ahí estamos, hermanados durante tres décadas con la potencia mundial, sin que ellos hayan entrado en declive ni nosotros hayamos alcanzado su poderío.  

Cuando empezó PISA, los defensores de la importancia del contexto socioeconómico y cultural de la familia esperábamos una mejora con el tiempo. Los resultados de PISA son una prueba de que de aquello que medimos, dicho contexto es de las características más asociadas con el nivel de las competencias. En tanto que el nivel educativo de las familias iba a mejorar en las próximas décadas, esperábamos un aumento. Nos equivocamos. 

Dado el carácter competencial de la prueba y que es muy independiente del currículum, hay quienes consideran que en realidad es un test de inteligencia. Por ejemplo, las correlaciones entre las tres competencias son próximas a 0,9, por lo que parece que son tres formas de medir la capacidad de resolver problemas, ya sean lógicos o de comprensión lectora. En tal caso, la rápida caída de Finlandia no es de fácil explicación. Y un fenómeno coyuntural, de unos pocos meses de duración, como la pandemia, parece haber producido efecto sobre una característica que es más bien estructural. Quizá con el tiempo, esta generación se recupere de este efecto negativo de la pandemia, o, por el contrario, le quedará, como una cicatriz.

Nuestras ideas sobre la relación entre inversión económica y competencias también han sufrido a partir de los informes PISA. A nivel nacional, choca que el País Vasco, que invierte el doble que el promedio de España por estudiante, obtenga unos resultados por debajo de la media, incluso entre las comunidades más rezagadas. Al mismo tiempo, ninguna empresa duda de invertir en el País Vasco o en su potencial económico por los resultados obtenidos en esta prueba (ni por ello dirige sus inversiones a Castilla y León). Quienes atribuyen la bajada de vascos, catalanes o navarros al bilingüismo tendrán que explicar por qué dicha bajada acontece recientemente, y no desde hace cuatro décadas, cuando empezaron a funcionar estos modelos educativos.

Las variaciones en rendimiento educativo suelen relacionarse con los pánicos morales del momento: los cómics y el rock & roll en los 50 – 60, la televisión en los 70 – 80, los videojuegos 90 – 2000, y, más recientemente, las redes sociales virtuales o los teléfonos móviles. Cada generación que ha transitado por esos peligros se ha convertido en adultos funcionales. Y al igual que sus madres y padres, cuando ven a sus hijos adolescentes entusiasmados con algo que no conocen, lo temen. El ciclo de la vida. 

Los recientes datos de PISA muestran que una asociación entre tiempo dedicado al uso de dispositivos y rendimiento como U invertida, es decir, la relación mejora, hasta que, pasado un uso demasiado prolongado, empeora. Antes de que se pudiese mirar al móvil,   mirábamos las musarañas, o nos perdíamos por Babia. Si bien el móvil añade el riesgo de la adición a la mente dispersa y aumenta la tentación hacia la evasión, su supresión no necesariamente lleva a que ese tiempo se dedique al estudio. 

La explicación debida a cambios normativos o didácticos específicos de España en los últimos cuatro años deja sin explicar los buenos resultados de la “España norte” así como la caída, mayor, en el conjunto de la OCDE. Hasta podría dársele la vuelta y argumentar que gracia a esos cambios, la caída en España ha sido menor.

Dicha caída se está atribuyendo a los efectos educativos del cese de la actividad presencial en las escuelas debido a la pandemia. Sería menor en España precisamente por el esfuerzo realizado para la rápida vuelta a la actividad presencial. Pero esto deja sin explicar por qué los resultados en ciencias se han mantenido estables tanto en España como a nivel internacional. O por qué hay comunidades con un fuerte descenso, como Cataluña, y otras que incluso mejoran ligeramente, como la Comunidad Valencia (también bilingüe).

En resumen, casi todo lo que se dice o se esperaba de PISA, o bien no resiste a un análisis lógico, empírico o no ha sido lo que esperábamos. En este punto, parece que la conversación sobre PISA sucede en la caverna de Platón, donde la gente se deja llevar por las sombras. Sombras que en realidad son fantasmas. Cada argumento que se oye de PISA habla más sobre los fantasmas que dominan a quien los expone que sobre los datos. PISA es una especie de test proyectivo, un test de Rorschach, en el que cada análisis no habla de los datos, sino de las inquietudes de quien los analiza. He intentado describir el test como unas manchas de tinta sobre papel, para ser lo más fiel posible al objeto en sí.

He intentado seguir el método socrático de dialogar con diferentes posiciones sobre qué dice PISA, y así espantar los fantasmas, mostrando sus contradicciones lógicas o empíricas. Y cuando no nos quedan los fantasmas, lo que puedo decir sobre PISA es que solo sé que no sé nada. Los argumentos se tropiezan y caen ante sus incoherencias con los datos.

¿Qué te ha parecido el artículo?
Participación