El Método Científico es ese conjunto de reglas que regulan el apasionante juego de preguntas y respuestas llamado Investigación Científica. En Ciencias de la Salud investigamos para responder preguntas que surgen de la práctica clínica con el objetivo final de resolver problemas concretos: ¿Es efectivo un determinado abordaje terapéutico para tratar una patología? ¿Cuál es la prevalencia de una enfermedad? ¿Sirve un método determinado para diagnosticar? ¿Cuáles son los mecanismos fisiopatológicos que median la enfermedad? Estas, entre otras, son el tipo de preguntas que tratamos de responder en Investigación Biomédica.

El Método Científico implica que utilicemos el análisis estadístico para formular las conclusiones adecuadas una vez diseñado y ejecutado un estudio. A día de hoy no se entiende este proceso sin la aplicación de los test estadísticos adecuados que nos den como resultado ese deseado (y a la vez temido) número que nos va a permitir decidir si podemos aceptar, o por el contrario debemos rechazar nuestra hipótesis. Me refiero al p valor, y más en concreto a, como solemos decir los investigadores, la “p<0,05”.

Más de uno (y más de dos y de tres…) han (hemos) fantaseado alguna vez con la posibilidad de tatuarnos en alguna zona de nuestro cuerpo un sencillo p<0,05. Porque hasta ahora parece que nuestro estudio científico no tiene sentido si al final no obtenemos un deseado resultado estadísticamente significativo. Desde hace ya mucho es lo que buscamos con ansia en los laboratorios cuando investigamos con pacientes, animales, células, tejidos, genes, proteínas, metabolomas y muestras varias: la significación estadística como prueba concluyente y casi irrefutable de que hemos acertado al formular nuestra hipótesis. Irrefutable con un 95% de seguridad, ese nivel de confianza que por consenso hemos asignado como aceptable para formular las conclusiones y que nos hace sentirnos más seguros ante la realidad de que no hay nada perfecto en investigación.

Pero el conocimiento no es estático y la estadística no se libra de ello. Cada vez son más las voces que se alzan para reclamar una revisión de este paradigma en el que, todo hay que decirlo, nos hemos acomodado plácidamente.

En los últimos años grupos de investigadores y matemáticos claman por una revisión de este consenso. Se han realizado estudios para demostrar que las cosas no son como parecen ser: en el año 2015 en un artículo publicado en la revista Science por un consorcio de científicos (The Open Science Collaboration) se demostró que al replicar una serie de experimentos en el área de la psicología en los que se había demostrado una significación estadística en el 97% de los casos, solo el 37% ellos eran capaces de volver a demostrar dicha significación, o lo que es lo mismo, una p<0,05 (1). Es decir, de ese 97% de los estudios que originalmente demostraron un resultado a favor de la hipótesis, solo eran capaces de reproducir el mismo resultado un 37% de los mismos.

Una de las características del Método Científico es que es replicable. Esto significa que los resultados deben poder ser reproducidos en las mismas condiciones y parece ser que esto ahora mismo no se está cumpliendo. ¿Qué deberíamos hacer al respecto?

Basado en este estudio, Valen Johnson y colaboradores han publicado recientemente un artículo en el Journal of the American Statistical Association en el que proponen un nuevo modelo bayesiano para justificar que se debería aumentar la exigencia del nivel crítico (2). Es decir, nuestro ansiado p valor debería ser mucho menos para poder decir que existe una significación estadística. De ser así, ¿cuánto deberíamos bajar el umbral de significación? Este mismo autor propone en Nature Human Behaviour que cambiemos el umbral de 0,05 a 0,005 (3).

DD8214A3-3FD2-47B0-AE71-2BCCB2B3DA7F.jpeg

(Image link: https://imgflip.com/i/20iw8w)

Otros autores van más allá y proponen directamente eliminar la significación estadística como criterio para decidir la aceptación de la hipótesis (4). Su propuesta está argumentada en que el aumento en el nivel de exigencia de la significación estadística no resolverá el problema de base, que son los sesgos que se producen en la investigación. Declaran incluso que este problema se verá agravado si bajamos el nivel de significación de 0,05 a 0,005, ya que los investigadores nos empeñaremos en demostrar una significación más exigente y para ello introduciremos más sesgos con el objetivo de conseguirlo.

No está claro de momento qué deberíamos hacer al respecto. Lo que sí parece es que el debate está abierto, y llega justo en el momento en el que muchas voces se levantan para reclamar que hagamos ciencia, sí, pero que la hagamos mejor. No se trata con conformarnos con lo que podemos hacer y con lo que nos sale, sino de empezar de verdad a realizar estudios con una buena base de evidencia para formular la hipótesis, que estén bien diseñados, escrupulosamente ejecutados y que dejemos de utilizar la estadística para demostrar aquello que nos hemos empeñado en creer que es así.

 

Leticia Martinez-Caro, PhD (@let_mcaro)

Grupo de Investigación en Dolor Musculoesqueletico y Control Motor

 

REFERENCIAS

Johnson VE, Payne RD, Wang T, Asher A, Mandal S. On the Reproducibility of Psychological Science. J Am Stat Assoc [Internet]. Taylor & Francis; 2017;112(517):1–10.

Benjamin DJ, Berger JO, Johannesson M, Nosek BA, Wagenmakers E-J, Berk R, et al. Redefine statistical significance. Nat Hum Behav [Internet]. 2017;

Amrhein V, Greenland S. Remove, rather than redefine, statistical significance. Nat Hum Behav[Internet]. Springer US; 2017;133(2016):1.

Estimating the reproducibility of psychological science. Science (80- ) [Internet]. 2015;349(6251):aac4716-aac4716.

 

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s