Quem se interessa por questões de ciência e saúde e se vê exposto às grandes mídias – jornais, revistas, redes sociais – certamente já está acostumado a navegar por parágrafos sem fim sobre plantas, moléculas e materiais diversos apresentados como “promessas” de cura e alívio para as mais variadas condições, com base em experimento realizados em meios de cultura ou camundongos. Não raro, alguma figura empreendedora, em seguida, apropria-se da manchete e os “benefícios para a saúde, segundo estudos” se convertem em potente fator de marketing a favor de alguma frutinha semidesconhecida ou suplemento alimentar.
Poucas pessoas talvez parem para se perguntar por quê, depois de anunciadas, a maioria dessas descobertas maravilhosas parece nunca passar da fase de dica informal, ouvida em programa matutino de TV aberta, e chegar ao que deveria ser o estágio lógico seguinte, o de tratamento médico devidamente aprovado.
Muitas vezes isso é atribuído às demoras naturais e necessárias do processo de validação clínica, mas por trás dessa explicação há outra, bem mais prosaica: a maioria dos estudos iniciais noticiados como “descobertas promissoras” estava simplesmente errada.
A afirmação acima não representa um exercício de iconoclastia, mas uma conclusão baseada na já volumosa literatura disponível sobre falsos positivos em pesquisa pré-clínica e clínica. Essa área de interesse recebeu um impulso especial com a publicação, na PLoS Medicine, em 2005, do antológico “paper” “Why Most Published Research Findings Are False” (“Por Que a Maioria das Descobertas de Pesquisas Publicadas É Falsa”), do médico John Ioannidis, que chamava atenção para, entre outras coisas, procedimentos estatísticos inadequados e o uso de amostras muito pequenas.
De lá para cá, a preocupação se aprofundou na Medicina e se disseminou para outras áreas. Em 2011, o periódico Psychological Science trouxe o artigo “False Positive Psychology” (“Psicologia de Falso Positivo”), chamando atenção para o que os autores, Joseph P. Simmons, Leif D. Nelson e Uri Simonsohn, denominam “graus de liberdade do pesquisador” – séries de decisões, muitas vezes informais e à primeira vista inocentes, que, tomadas ao longo do processo de pesquisa, acabam enviesando o resultado. “A flexibilidade na coleta, análise e reportagem dos dados eleva dramaticamente a taxa real de falsos positivos”, advertiam. Em 2015, artigo na Science apontava que menos da metade de um conjunto de 100 importantes experimentos da literatura em Psicologia havia se mostrado reprodutível.
O critério da reprodutibilidade – qualquer pesquisador que utilize os mesmos métodos e materiais equivalentes aos do estudo original deve, em princípio, chegar aos mesmos resultados – serve, entre outras coisas, como uma espécie de checagem do grau de perícia e competência do autor da pesquisa inicial. Crucialmente, sem reprodutibilidade não há aplicação: medicamentos só são confiáveis porque se pode prever, com certa segurança, que seus efeitos irão se reproduzir de modo razoavelmente homogêneo na população dos pacientes para os quais são indicados.
Três anos antes de a Science anunciar a chamada “crise de reprodutibilidade da Psicologia”, dois importantes pesquisadores em oncologia, C. Glenn Begley e Lee M. Ellis, publicavam peça de opinião na Nature lastimando a elevada taxa de fracasso nos testes clínicos de novos tratamentos para câncer e apontavam, entre os principais responsáveis, “a qualidade dos dados pré-clínicos”, aqueles obtidos em células e animais. “A comunidade científica pressupõe que as alegações de um estudo pré-clínico podem ser aceitas sem ressalvas – que, embora possa haver pequenos erros de detalhe, a mensagem principal do ‘paper’ merece confiança e que os dados, em sua maior parte, sobreviverão ao teste do tempo. Infelizmente, isso nem sempre é verdade”, lamentam os autores.
Em janeiro, Ioannidis e outros pesquisadores, como o psicólogo Eric-Jan Wagenmakers, publicaram em Nature Human Behavior, a peça “A Manifesto for Reproducible Science” (“Um Manifesto pela Ciência Reprodutível”), em que chamam atenção para as armadilhas que existem no caminho entre a formulação de uma hipótese e a publicação de uma conclusão realmente válida, incluindo os diversos cacoetes que levam o ser humano a mentir para si mesmo, como apofenia, a tendência de ver padrões onde só existe caos; viés de confirmação, a tendência de prestar atenção numa mera fração da informação disponível (a fração que parece confirmar nossas preconcepções); e viés do retrovisor, a tendência de considerar certas sequências de eventos "óbvias" ou "previsíveis" – mas apenas depois de elas terem se concretizado.
Há poucas semanas, Ioannidis voltou à carga, desta vez no periódico médico JAMA, com o artigo opinativo “Acknowledging and Overcoming Nonreproducibility in Basic and Preclinical Research” (“Reconhecendo e Superando a Não-Reprodutibilidade em Pesquisa Fundamental e Pré-Clínica”). O primeiro parágrafo merece ser citado na íntegra:
“A evidência de que há não-reprodutibilidade na pesquisa fundamental e pré-clínica é convincente. Dados acumulados de diversas subdisciplinas e tipos de experimento sugerem numerosos problemas que podem criar um terreno fértil para a não-reprodutibilidade. Por exemplo, a maior parte dos protocolos e dos dados brutos frequentemente não fica disponível para análise aprofundada ou utilização por outros cientistas. O sistema de incentivos atual premia a publicação seletiva de histórias de sucesso. Há uma utilização inadequada de métodos estatísticos, e o design dos estudos frequentemente é menos que ótimo. Erros laboratoriais simples – por exemplo, contaminação ou identificação equivocada de linhagens celulares comuns – ocorrem com certa regularidade”.
O uso inadequado de métodos estatísticos nas ciências causa alarme entre os estatísticos. Há um ano, a Associação Estatística dos Estados Unidos publicou uma advertência sobre o abuso do valor-p como critério de descoberta científica. Não se trata de novidade. Outras advertências presentes em diversos dos artigos citados, como os vieses psicológicos e os vícios trazidos por um sistema acadêmico que incentiva a produtividade mecânica, também não partem de descobertas recentes. Tudo isso é muito claro.
O que parece bem menos claro é o impacto que essas críticas e alertas tem tido no fazer acadêmico, nos programas de pós-graduação, nas bancas de tese, nas avaliações das agências de fomento, tanto em nível global quanto nacional ou, mesmo, local.
Iniciativas como o pré-registro de experimentos, que limitam os graus de liberdade do pesquisador para “mudar de ideia” no meio de um estudo e estimulam a divulgação de resultados negativos, ainda são pouco divulgadas. No dia-a-dia, a roda das carreiras continua a girar movida, quase que exclusivamente, pela dúbia constatação de que “p < 0,05”.
REFERÊNCIAS:
Why Most Published Research Findings Are False
(http://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.0020124)
Why Most Clinical Research Is Not Useful
(http://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1002049)
Estimating the reproducibility of psychological science
(http://science.sciencemag.org/content/349/6251/aac4716 )
Drug development: Raise standards for preclinical cancer research
(http://www.nature.com/nature/journal/v483/n7391/full/483531a.html )
An investigation of the false discovery rate and the misinterpretation of p-values
(http://rsos.royalsocietypublishing.org/content/1/3/140216 )
False-Positive Psychology
(http://journals.sagepub.com/doi/full/10.1177/0956797611417632 )
The ASA's Statement on p-Values: Context, Process, and Purpose
(http://amstat.tandfonline.com/doi/abs/10.1080/00031305.2016.1154108)
A manifesto for reproducible science
(http://www.nature.com/articles/s41562-016-0021 )
Preregistration Challenge (https://cos.io/prereg/ )