Jesse Singal vs. Investigación sicológica muy “guay” para ser cierta

¿A alguien le ha llegado a saturar alguna vez el goteo continúo de noticias sobre fenómenos psicológicos increíbles y tremendamente curiosos que parecen en principio difíciles de creer? tener una bandera delante mueve a la gente a ser más de derechas, sostener un vaso de agua agua tibia en la mano te hace una persona más cálida, niños que hacen un test después de mostrarles una foto de Einstein sacar mejores resultados … No sufras, no estás loco. Bienvenido a la crisis de replicación.


En su libro The Quick Fix: why fad psychology can’t cure our social ills, Jesse Singal, famoso columnista de The New York Times y The Atlantic especializado en investigación psicológica y ciencias sociales, nos introduce en la decepcionante crisis que ha azotado a la investigación en psicología y ciencias sociales en la última década. Un problema que si bien no se circunscribe solo a este ámbito y también toca de forma marginal a las ciencias exactas, en determinadas áreas de los susodichos campos llega a alcanzar en incluso superar el 50% de experimentos no replicables.

¿Y qué es esto de la replicabilidad o reproducibilidad? Todos sabemos que para demostrar una hipótesis científica y reclamar haber descubierto algo interesante, uno tiene que diseñar un buen experimento que muestre de forma inequívoca que el efecto o fenómeno en cuestión se da de forma consistente. Et… voilà! Entonces ya puedes escribir a un periodista para que informe a la ciudadanía de que, pongamos un ejemplo, mirar una imagen del pensador de Rodin antes de un test espiritualidad y religión hace a la gente más atea ¡No es la mente increíble!

¿El problema? Si uno se pone a buscar patrones curiosos en el océano de datos que es la realidad, se encuentran milagros y expedientes X por todas partes. Mensajes al leer la Biblia en diagonal o oraciones de adoración satánica al oír Stairway to Heaven al revés, gente que gana la lotería dos veces seguidas o te acuerdas de tu amigo que hace años que no ves justo antes de que te llame. La cuestión es que con un número suficiente de intentos, una moneda puede caer en cruz 10 o 50 veces, y si escondes el dato del gigantesco número de tiradas, pues claro, parce intervención divina.

Lo mismo sucede con la investigación. Un experimento con un número pequeño de sujetos puede arrojar resultados increíbles por puro azar. Por otro lado, el experimento puede tener algún fallo de diseño que ayude generar esta confusión. Por eso es importante que algún otro investigador independiente del primero, intente volver a hacer el mismo experimento con la misma metodología. Si los resultados son los mismos, la hipótesis detrás del experimento gana peso. Si no, se ponen en cuestión los resultados originales.

En ciencias como la física, el carácter de experto matemático del investigador medio, hace que sean algo más conscientes de las posibles trampas estadísticas que pueden llevar a falso positivos, lo que no quiere decir que sean totalmente inmunes. Además, en sus experimentos las variables son mucho más fáciles de controlar. Trabajan con objetos inertes, no con seres vivos y mucho menos con humanos. En psicología y ciencias sociales nos encontramos lo contrario, menos conocimientos matemáticos y variables más difíciles de controlar. De hecho, es de admirar el valor y el trabajo que hace falta para intentar extraer resultados sólidos en este tipo de áreas.

En su libro, Singal nos muestra sucesivas casos de soluciones mágicas a problemas sociales complejos que, a pesar de la poca evidencia sólida a su favor, son adoptadas y promovidas por profesionales e instituciones, arrastradas por el encanto de las ideas en sí mismas y/o por el gran carisma de sus defensores. Como muestra, vamos ver algunos de los ejemplos de su libro.

Lo mas importante es subirle la autoestima a los niños.

Quizás el caso más emblemático es el que Singal trata en el primer capítulo, las iniciativas en pos de mejorar la autoestima. A partir de los años 80 y con su apogeo en los 90 se extiende por los EEUU, y por ende en el resto del mundo occidental, el concepto de que la baja autoestima es la causa de las mayor parte de los problemas que aquejan a niños y jóvenes. En ella radica el bajo rendimiento escolar y una gran parte de las conductas criminales. Partiendo de aquí, se diseñan, programan y financian intervenciones en institutos y centros que tratan con menores. Pero según pasan los años aparecen estudios mostrando cuestiones tan de sentido común como que es sacar buenas notas lo que mejora la autoestima y no al revés, o que muchos criminales juveniles tienen una excelente opinión de si mismos (aunque si ven que declarar baja autoestima genera simpatía hacia ellos lo harán).

Y si esta idea no tenía mucha base empírica ¿Por que ha llegado a tener tanto alcance? Singal explica que el empujón inicial a la teoría se lo dio el excéntrico y ambicioso legislador californiano John Vasconcellos, Vasco para sus amigos. Inicialmente fue ridiculizado, pero a finales de los 80s consigue pasar la legislación para financiar un proyecto de investigación coordinado por el prestigioso sociólogo Neal Smelser. Vasco malinterpreta burdamente los resultados de la investigación en su favor, y Smelser, temiendo poner a un influyente político en contra de su universidad, no se esfuerza en aclarar la manipulación. A partir de ese punto, tenemos una idea seudocientífica “supermolona” que sirve para conseguir financiación pública, darle autobombos a proyectos educativos o para quedar de experto educativo dándole charlas a los pobres ciudadanos incautos.

Powerposing” para empoderar a las ejecutivas.

Y si la autoestima es tan importante ¿No te parece que plantarte con una pose de superhéroe antes de una entrevista te dará toda esa confianza extra que necesitas? Como heredera del movimiento de la autoestima nos encontramos “The Power Pose”, la idea de que forzar una cierta postura antes de interactuar con otros, te ayuda ganar poder en mitines y reuniones. En un experimento publicado en 2012, D. Carney, A. Yap y A. Cuddy, piden a un grupos de estudiantes mantener durante un minuto posturas dominantes o de sumisión antes de jugar a hacer apuestas. Aquellos que mantienen posturas de dominación son más arriesgados y ambiciosos y muestran niveles más altos de testosterona. Cuddy eleva el concepto a fenómeno mundial con su TED Talk de 2012, y pronto es adoptado como una forma de empoderar a jóvenes ejecutivas para arrasar en reuniones plagadas de machirulos arrogantes.

Lamentablemente, poco a poco, distintos estudios van restando credibilidad a la idea, hasta que en 2015, Eva Ranehill intenta replicar el estudio con una muestra 5 veces mayor en Alemania, y el powerposing empieza a deshacerse como un azucarillo. En 2016, Dana Carney admite públicamente que, observadas con más detenimiento, algunas de las técnicas que utilizaron podrían pecar, de forma no intencionada, de lo que se conoce como “p-hacking”. P-hacking alude al uso de distintas formas de tratar datos que consiguen forzar un p-valor (una medida de hasta que punto un resultado es estadísticamente relevante) por debajo de 0,05, lo considerado aceptable.

El poder de los sesgos inconscientes.

En el 2018, la noticia de que un empleado de Starbucks llamando a la policía para echar a dos jóvenes negros del local por sentarse sin consumir, recorrió la prensa mundial. La empleada fue despedida y Starbucks, hizo un parón de un día en todos sus locales en EEUU para llevar a cabo un taller de entrenamiento anti-racista de urgencia. La idea clave, tratar los sesgos implícitos o inconscientes.

¿Y cómo saber si padeces de estos sesgos si son inconscientes? ¡Muy fácil! Solo tienes que tomar el Test de asociación implícita (IAT) diseñado por prestigiosos científicos en Harvard. El test te pide que asocies distintas imágenes de personas blancas o de una minoría racial con palabras con cargas positivas o negativas. Y si tardas un par de milisegundos más en asociar persona negra con la palabra “agradable” pongamos… ¡Bum! Racista detectado.

Sin embargo, estudios llevados a cabo por investigadores menos caritativos con el concepto como Oswald, Mitchell, Blanton, Jaccard and Tetlock han encontrado que el test falla tanto a nivel de fiabilidad (la misma persona en días distintos puede obtener resultados distintos) como de validez (el test mide lo que dice medir o no). En lo que se refiere a esto último, ciertos estudios apuntan a que aquellos mejor informados sobre problemas de discriminación racial o más preocupados por obtener un resultado negativo tienden a puntuar como más sesgados, al igual que aquellos que procesan información algo más despacio. De hecho en 2015, M. Banaji y A. Geenwald, los promotores el test, admitieron con la boca pequeña que el test es problemático por su alta probabilidad de error.

Aún así, tras el shock social provocado por las muerte de George Floyd, cientos de instituciones y grandes empresas se han lanzado de cabeza a usar el IAT para purificar a sus empleados de estos peligrosos sesgos, reales o imaginados.

La caída en desgracia del primado (no el de la catedral de Toledo)

El primado social, o más bien “priming” como se usa más comúnmente en español, es el hermano respetable del concepto detrás de la publicidad subliminal. La idea de la publicidad subliminal parte de un estudio de 1957, en el que James Vicary introdujo mensajes ordenando a los espectadores de un cine de New Jersey comprar Coca-cola y palomitas durante un tiempo tan corto, que estos no eran consciente de haber visto los mensajes. Vicary informó de que las ventas de ambos productos subieron en un 18% y 58% ese día.

El estudio hoy en día está considerado más bien como un farsa. Aun así, si es cierto que nuestras decisiones a menudo se pueden ver influenciadas pequeños cambios en el entorno inmediato o por sutiles interacciones de las que no somos ni siquiera conscientes.

El término “social priming” aparece por primera vez en un estudio publicado en 1977 por E. T. Higgins, W. Rholes y C. Jones en Princeton. En este estudio una serie de estudiantes reciben un texto con una descripción ambigua de un sujeto que podría ser un tío aventurero y confiado en sí mismo, o un idiota egocéntrico y temerario. El estudio demuestra, que mostrar una lista de palabras relacionadas con uno de estos dos tipos de personalidad antes de la lectura, afecta y mucho el juicio que se extrae de ellos.

Más tarde, en los 90, el priming social entra en su época dorada. Uno de los estudios más característicos es publicado en Journal of Personality and Social Psychology por Mark Chen y Laura Burrows en 1996. Según este estudio, los sujetos expuestos a términos como “viejo”, “solitario”, “arruga” y “Florida” (el Benidorm estadounidense), demostraban andar más despacio por un pasillo minutos después de este “priming”.

En este último ejemplo, quizás ya se puede ver la semilla que llevaría a este tipo de investigación a descarrilar, ya que puede conducir a demostrar científicamente las chorradas más curiosas y anti-intuitivas del mundo, mostrando la gran inteligencia de estos investigadores que revelan al mundo las rarezas de la mente humana. Pero todo con respaldo 100% científico claro. Poco después aparecieron estudios mostrando que hablar de dinero justo antes de una conversación nos hace mostrarnos más favorables al capitalismo o que los huracanes con nombre de mujer son más peligrosos porque los nombres femeninos no resultan amenazantes y por ello no no se toman las suficientes medidas de protección. Incluso el prestigioso nobel de economía Daniel Kahneman le da credibilidad al concepto en su libro Pensar rápido, pensar despacio (algo de lo que más tarde se retractará).

El priming empieza a caer en desgracia con el investigador holandés Diederik Stapel, de la Universidad de Tiburg. A lo largo de los años, Stapel había publicado decenas de estudios (muchos relacionados con el priming social) con resultados chocantes, como que las copas de vino mejoran los modales en la mesa, que el desorden aumenta la discriminación o que los que comen carne son más antisociales que los vegetarianos. Tras ser alertada por algunos de sus investigadores, la Universidad de Tiburg abre una investigación y en septiembre de 2011 suspende a Stapel. Hasta 58 papers producidos por Stapel tuvieron que ser retirados.

También en 2011, el psicólogo social Daryl Bem publica un paper que supuestamente prueba la existencia de poderes psíquicos. En su experimento, los sujetos son capaces de acertar de entre dos imágenes de cortinas en un ordenador cual ocultaba una imagen pornográfica. Llegado este momento en que ya se empiezan a probar fenómenos paranormales, muchos investigadores se dan cuanta de que algo huele a podrido en la psicología social y empiezan a intentar replicar todo tipos de experimentos.

El priming social será una de las áreas más tocadas. Un año después de publicar su libro Pensar rápido, pensar despacio, Kahneman escribe una carta a varios investigadores relevantes de este área avisando de los problemas que se avecinaban al empezar a darse cuanta de las muchas inconsistencias. Poco a poco muchos de los buques insignia del priming empiezan a hundirse: andar más despacio tras oír palabras relacionadas con la vejez, hacerse más capitalista al hablar de dinero, hacerse más conservador tras ver un bandera, etc. La Universidad de Virginia condujo un proyecto liderado por Brian Nosek y publicado en 2015. Este intentó replicar 100 estudios publicados en revistas de prestigio, consiguiendo resultados en solo un tercio. Este es seguido por un proyecto aún más ambicioso, Many Labs, intenta replicar experimentos con datos de 60 laboratorios distintos. El 50% no consiguen replicar.

¿Cómo ha podido suceder?

La crisis de replicación en la psicología y otras ciencias sociales se debe a una mezcla de factores. Por un lado, tenemos algunos sujetos poco éticos dispuestos a todo por tener éxito. También se puede mencionar cierta ingenuidad de otros investigadores que no son conscientes de errores graves en el planteamiento de sus experimentos. Pero sobre todo, este tipo de crisis vienen dadas por unos sistemas de incentivos alineado de forma bastante perversa.

Para poder progresar en su carrera los investigadores tienen que publicar. Por otro lado, a las revistas científicas les gusta publicar artículos molones, y mola más publicar resultados positivos. Tampoco les parece glamuroso publicar la replicación de un experimento. Así que, si eres investigador y quieres ganarte las lentejas, al final puede salir rentable relajar los estándares científicos y estadísticos y darle un par de vueltas a tus datos a ver que sale.

Hay distintas formas estrujar tus experimentos para asegurarte de que poder estrujar algo. Aquí vamos a mencionar dos de las más comunes. Una de las más usadas es conocida como flexibilidad oculta, analizar los datos desde distintos ángulos y solo informar de aquellos que producen resultados. Un ejemplo sería publicar que has descubierto una pastilla que ayuda a combatir la hipertensión y “se te olvida” mencionar que has usado los mismos datos para ver si la píldora ayuda con otras 20 dolencias.

Otra técnica muy común es el “HARKing” (hypothesizing after results are known). Se trata de plantear un experimento para testar una hipótesis y cuando este falla, te inventas que la hipótesis original es la que corresponde a los resultados que has obtenido. Imaginemos que tu experimento hipótesis plantea que escuchar grabaciones de animales salvajes en la selva ayuda a dormir. Pero cuando descubres que el resultado es el opuesto, publicas que tu hipótesis original era usar este tipo de grabaciones para gente que necesita mantenerse despierta y concentrada sin tomar cafeína.

La crisis de la replicación le ha dado un buen golpe a la reputación de la investigación en las disciplinas que hemos comentado. Esto no quiere decir que uno no se pueda fiar de los avances científicos. Esta crisis afecta sobre todo a estudios de los 90 y de la primera década del milenio. También hay que recordar que gran parte de los estudios si que replican. Por otro lado hay un corpus científico enorme y muy sólido a nivel de psicología de estudios que si son altamente fiables.

Además, no es la primera vez ni la última que jetas sinvergüenza cuelan estudios fraudulentos en revistas de prestigio. Y también hay cientos de ejemplos históricos de investigadores que han creído confirmar todo tipo de hipótesis rompedoras para descubrir que todo se trataba ruido estadístico o de fallos de diseño de sus experimentos.

En cualquier caso recuerda, si un experimento te cuenta una historia demasiado “guay” para ser cierta o demasiado extraña para ser real, a lo mejor no lo es. 


Este artículo está inspirado y documentado en el libro:

The Quick Fix: Why Fad Psychology Can't Cure Our Social Ills”, de Jesse Singal

http://revistasupuestos.com/otros/2017/9/25/p-hacking-cmo-hacer-trampa-modificando-el-p-valor

Imagen:

https://replicationindex.com/category/social-priming/


No hay comentarios :

Publicar un comentario