Como os cientistas podem parar de ser enganados pelas estatísticas

Um artigo emocionante de Dorothy Bishop apareceu em Natureza 584: 9 (2020); doi: 10.1038 / d41586-020-02275-8

A coleta de dados simulados pode revelar maneiras comuns pelas quais nossos preconceitos cognitivos nos levam ao erro.


Numerosos esforços foram feitos durante a última década para promover pesquisas robustas e confiáveis. Alguns se concentram na mudança de incentivos, como a mudança de critérios de financiamento e publicação, para favorecer a ciência aberta em vez de avanços sensacionais. Mas atenção também deve ser dada ao indivíduo. Vieses cognitivos excessivamente humanos podem nos levar a ver resultados que não existem. O raciocínio falho leva a uma ciência desleixada, mesmo quando as intenções são boas.

Algumas palavras sobre o autor:  

Professora Dorothy Bishop


Professor de Neuropsicologia do Desenvolvimento, Departamento de Psicologia Experimental; Membro do St. John's College


O professor Bishop pesquisa problemas de linguagem em crianças. Em alguns casos, as dificuldades de fala têm uma causa óbvia, como perda de audição ou uma condição como a síndrome de Down. Em outros casos, as crianças têm dificuldade especial em aprender a falar ou compreender a linguagem sem motivo aparente. O professor Bishop estudou crianças com "deficiências específicas da fala", ou DEL, que representam cerca de 3% da população, mas tendem a ser negligenciadas pelos pesquisadores. Usando estudos de gêmeos, ela estudou o componente genético desses distúrbios e trabalhou com geneticistas moleculares para descobrir quais genes estão envolvidos. Imagem fonte: Wikipedia


Como os cientistas podem parar de ser enganados pelas estatísticas

Numerosos esforços foram feitos durante a última década para promover pesquisas robustas e confiáveis. Alguns se concentram na mudança de incentivos, como a mudança de critérios de financiamento e publicação, para favorecer a ciência aberta em vez de avanços sensacionais. Mas atenção também deve ser dada ao indivíduo. Vieses cognitivos excessivamente humanos podem nos levar a ver resultados que não existem. O raciocínio falho leva a uma ciência desleixada, mesmo quando as intenções são boas.

Os pesquisadores precisam estar mais cientes dessas armadilhas. Assim como os cientistas de laboratório não têm permissão para lidar com substâncias perigosas sem treinamento de segurança, os pesquisadores não devem ter permissão para chegar perto de um valor P ou medida de probabilidade estatística semelhante até que tenham demonstrado que entendem o que isso significa.

Todos nós tendemos a ignorar evidências que contradizem nossos pontos de vista. Quando nos deparamos com novos dados, nossas ideias pré-existentes podem nos levar a ver estruturas que não existem. Esta é uma forma de viés de confirmação, onde buscamos informações e lembramos informações que vão com o que já estamos pensando. Pode ser adaptável: as pessoas precisam ser capazes de eliminar informações importantes e agir rapidamente para sair do perigo. Mas essa filtragem pode levar a erros científicos.


A medição da carga do elétron pelo físico Robert Millikan em 1913 é um exemplo disso. Embora ele alegasse que seu trabalho incluía todos os pontos de dados de seu famoso experimento com gotículas de óleo, seus cadernos revelaram outros pontos de dados não relatados que teriam alterado o valor final apenas ligeiramente, mas teriam gerado um erro estatístico maior. Houve um debate sobre se Millikan pretendia enganar seus leitores. No entanto, não é incomum que pessoas honestas suprimam memórias de fatos inconvenientes (RC Jennings Sci. Eng. Ethik 10, 639-653; 2004).

Outro tipo de limitação promove mal-entendidos em probabilidade e estatística. Há muito sabemos que as pessoas têm dificuldade em compreender a incerteza associada a pequenas amostras (A. Tversky e D. Kahneman Psychol. Bull. 76, 105-110; 1971). Como exemplo atual, vamos supor que 5% da população esteja infectada com um vírus. Temos 100 hospitais que testam 25 pessoas cada, 100 hospitais que testam 50 pessoas e 100 que testam 100 pessoas. Que porcentagem de hospitais não encontrará nenhum caso e concluirá erroneamente que o vírus desapareceu? A resposta é 28% dos hospitais que testam 25 pessoas, 8% dos hospitais que testam 50 pessoas e 1% dos hospitais que testam 100 pessoas. O número médio de casos detectados pelos hospitais é o mesmo, independentemente do número de casos testados, mas a variação é muito maior com uma amostra pequena.

Essa escala não linear é difícil de entender intuitivamente. Isso leva a subestimar o quão ruidosas pequenas amostras podem ser e, portanto, a conduzir estudos que não têm o poder estatístico para detectar um efeito.

Os pesquisadores também não conseguem reconhecer que a importância de um resultado, expresso em um valor P, depende criticamente do contexto. Quanto mais variáveis ​​você examinar, maior será a probabilidade de encontrar um valor incorretamente "significativo". Por exemplo, se você testar 14 metabólitos para associação com um distúrbio, então a probabilidade de encontrar pelo menos um valor P abaixo de 0,05 - um limite comumente usado de significância estatística - não é 1 em 20, mas mais próximo de 1 para 2

Como podemos transmitir uma compreensão disso? Uma coisa é certa: o treinamento convencional em estatística é inadequado ou mesmo contraproducente porque pode dar ao usuário uma confiança inadequada. Estou experimentando uma abordagem alternativa: gerar dados simulados que os alunos podem submeter a várias análises estatísticas. Eu uso isso para transmitir dois conceitos-chave.

Primeiro, quando os alunos são apresentados a registros nulos (como números aleatórios), eles descobrem rapidamente como é fácil encontrar resultados falsos que parecem estatisticamente "significativos". Os pesquisadores precisam aprender que interpretar um valor P quando perguntado: "A está associado a B?" é muito diferente da pergunta "Existem correlações para as variáveis ​​A, B, C, D e E para as quais P <0,05? A questão de saber se um metabólito específico está associado a uma doença não é o mesmo que procurar uma faixa de metabólitos para ver se algum está associado a ele, o último exigindo testes muito mais rigorosos.

Mantendo os quatro cavaleiros da irreprodutibilidade sob controle

Os dados simulados também fornecem informações quando as amostras vêm de duas "populações" por meios diferentes. Os alunos aprendem rapidamente que, com tamanhos de amostra pequenos, um experimento pode ser inútil para revelar até mesmo uma diferença moderada. Uma simulação de dados de 30 minutos pode surpreender os pesquisadores se eles entenderem as implicações.


Os pesquisadores precisam adquirir hábitos para toda a vida para evitar serem enganados por preconceitos afirmativos. Observações que contradizem nossas expectativas requerem atenção especial. Charles Darwin disse em 1876 que adquiriu o hábito de "sempre que me deparo com um fato, observação ou pensamento publicado que contradiz minhas descobertas gerais, imediatamente e imediatamente escrevo um memorando sobre isso: porque estabeleci por experiência que tal fatos e pensamentos eram muito mais prováveis ​​de escapar da memória do que favoráveis ​​". Eu mesmo vi isso. Ao escrever resenhas, fiquei horrorizado ao descobrir que havia me esquecido completamente de mencionar artigos que iam contra meus instintos, embora os artigos não tivessem nenhuma falha específica. Agora estou tentando listá-los.

Todos nós achamos difícil ver as falhas em nosso próprio trabalho - isso é uma parte normal da cognição humana. Mas se entendermos esses pontos cegos, podemos evitá-los.

impressão