Artigos e Novidades

Um mundo além de p < 0,05

O foco exagerado em p < 0,05 prejudica o raciocínio estatístico e produz distorções na literatura científica.

The American Statistician” é uma revista científica sobre estatística publicada pela “American Statistical Association”. A revista é publicada desde 1947 e atingiu alto fator de impacto em 2018 (5.381).

No início de 2019, a revista publicou um suplemento ao número 73, o qual foi intitulado “Statistical Inference in the 21st Century: A World Beyond p < 0.05”. Todo o suplemento é de acesso aberto. Tanto os editores, quanto os pesquisadores que escreveram para este suplemento argumentam que é incorreto o procedimento de utilizar apenas o valor do p para tomar decisões sobre o que é ou não é significante em estatística. A “American Statistical Association” já havia se pronunciado em 2016 sobre o assunto, através da publicação do manifesto “ASA Statement on p-Values and Statistical Significance”, no qual alertava a comunidade científica sobre o mau uso do valor do p. Agora, através de sua revista científica, eles voltam a fazer o mesmo alerta.

O assunto foi também recentemente discutido na revista Nature (“Scientists rise up against statistical significance”).

 

Definição

A letra “p” se refere à “probabilidade”. Assim, o “valor do p” se refere à probabilidade de ocorrer um resultado igual ou maior ao obtido no teste inferencial, sendo a hipótese nula verdadeira.

 

O que não fazer

Segue abaixo a tradução literal dos cinco pontos do que não fazer em relação ao valor do p, expressos na primeira página do Editorial:

  • “Não embase suas conclusões apenas no fato de uma associação ou efeito ter sido “estatisticamente significante” (ou seja, o valor do p ultrapassou algum limite arbitrário, como p < 0,05)”.
  • “Não acredite que uma associação ou efeito existe apenas porque foi estatisticamente significante”.
  • “Não acredite que uma associação ou efeito não existe apenas porque não foi estatisticamente significante”.
  • “Não acredite que o valor do p fornece a probabilidade de o acaso produzir a associação ou efeito que foi observado ou que fornece a probabilidade de que a hipótese testada seja verdadeira”.
  • “Não conclua nada sobre a importância científica ou prática tendo como base a significância estatística (ou a falta dela)”.

Segundo os editores, os erros acima são frequentemente cometidos, indicando mau uso da estatística. Para eles, usar menos a “significância estatística” significa usar mais o raciocínio estatístico.

 

“Estatisticamente significante”

Segundo os editores, é hora de parar de dizer “estatisticamente significante”, “estatisticamente diferente”, “não significante”, “p < 0,05” ou de adicionar asteriscos às tabelas de resultados.

Historicamente, quem primeiro usou a expressão “estatisticamente significante” foi Francis Ysidro Edgeworth em 1885. Sua intenção era simplesmente indicar quando um resultado merecia maior consideração. Mas a expressão se tornou realmente conhecida quando Ronald Aylmer Fisher a usou em 1925. A partir daí, a expressão se tornou amplamente utilizada, mas não com o sentido original. De acordo com os editores, o que era uma ferramenta se transformou em uma tirania. O rótulo de “estatisticamente significante” não implica que uma associação ou efeito seja plausível, real ou importante (o inverso se aplica para “não significante”). Segundo os editores, o rótulo “estatisticamente significante” é usado para dar ar de autoridade aos achados, tendo em vista que a diferença entre “significante” e “não significante” não é em si estatisticamente significante (isso não é uma piada; veja artigo aqui).

 

Distorções nas publicações científicas

Um dos fatores mais importantes do mau uso do valor do p, segundo os editores, é que o excesso de preocupação com p < 0,05 levou a distorções nas publicações científicas. Ou seja, as pesquisas que merecem ser publicadas são apenas aquelas cujos resultados apresentam p < 0,05. Esta questão foi problematizada desde 1979 e é chamada de “file drawer problem”: ficam engavetadas as pesquisas que apresentam resultados com p > 0,05. O engavetamento de pesquisas acaba distorcendo a literatura científica, a qual super-representa resultados “estatisticamente significantes”. Segundo os editores, o “file drawer problem” compromete a integridade da produção científica.

O foco em p < 0,05 também coloca em primeiro lugar os resultados dos estudos ao invés da importância da pergunta que se está tentando responder ou dos métodos utilizados para respondê-la. Como consequência, há muitos estudos com resultados com p < 0,05, mas que respondem a perguntas banais ou que utilizam métodos inapropriados.

Os editores também argumentam que, como se acredita piamente no valor do p, com p < 0,05 se consegue muitas coisas: reivindicação de conhecimento, publicações, financiamento e promoções. “Não importa se o valor do p não significa o que as pessoas pensam; ele é valioso devido ao que ele pode comprar” (veja aqui).

 

Inferência estatística versus inferência científica

Os editores ressaltam que a dicotomização no valor do p faz com que ocorra outra confusão: de que inferência estatística e inferência científica são equivalentes. Essa confusão se deve a uma má compreensão do que a estatística é. Os editores defendem que a estatística é a ciência que nos permite (1) aprender a partir dos dados e (2) medir, controlar e comunicar incertezas.

 

Aceitar as incertezas

Os editores frisam que os pesquisadores precisam aprender a aceitar que as incertezas existem e sempre vão existir. Mas muitos pesquisadores tentam fugir das incertezas através da dicotomização “significante” e “não significante”. Não é possível dizer que um resultado “significante” sempre vai ocorrer, nem dizer que um resultado “não significante” nunca vai ocorrer. Ambos são incertos, porque sempre existe variação nos dados.

Os métodos estatísticos não são capazes de retirar as incertezas dos dados. Segundo Andrew Gelman (aqui), a estatística frequentemente é vendida como uma alquimia que transforma aleatoriedades em certezas. Mas, na verdade, os resultados estatísticos são mais incertos do que se costuma dizer. A incerteza deve fazer parte da comunicação dos resultados estatísticos, sendo expressa com medidas de erro (tais como erro padrão e intervalo de confiança). Segundo os editores, entender que as incertezas são inevitáveis são um antídoto contra a falsa certeza da “significância estatística”.

 

Reforma institucional

Os editores apontam que são necessárias mudanças no meio acadêmico, nos periódicos científicos e nas agências financiadoras, para que o valor do p não seja mais utilizado como o único resultado que importa. Por exemplo, o “Basic and Applied Social Psychology” baniu o uso do valor do p em suas publicações já há alguns anos. Os editores também sugerem o envio da “ASA Statement on p-Values and Statistical Significance” quando os pesquisadores submeterem um artigo ou uma revisão, a fim de melhorar a compreensão e a prática da estatística.

 

O que fazer

Os editores não propõem o abandono do valor do p. Mas que seu uso seja mais bem feito. São dadas algumas sugestões:

  1. Estudos exploratórios (que são a maioria das publicações) poderiam apenas utilizar estatística descritiva, enquanto estudos mais avançados e mais bem estruturados deveriam utilizar estatística inferencial.
  2. Ao relatar o resultado de um teste, o valor do p sempre deve ser fornecido de forma contínua (por exemplo, p = 0,08) e não dicotomizado por um limiar aleatório (“significante” versus “não significante”).
  3. Mais de um teste pode ser aplicado, a fim de se verificar se ambos apresentam valores semelhantes de p e, portanto, se as mesmas conclusões se aplicam.
  4. O valor do p de um teste pode ser complementado com outras métricas, como a segunda geração de valor do p, o valor s, a análise de credibilidade e o risco de falso positivo (estas métricas são explicadas em artigos específicos do suplemento da edição 73 da “The American Statistician”).
  5. O valor do p pode ser complementado com gráficos.
  6. O valor do p deve ser explicado, ou seja, o pesquisador deve ter conhecimento para explicar linguisticamente o que aquele valor significa no contexto de sua pesquisa (o que inclui considerar o tamanho da amostra e o tamanho do efeito).

 

Referência

Wasserstein, R. L.; Schirm, A. L. & Lazar, N. A. (2019). Moving to a world beyond “p < 0.05”. The American Statistician, 73: sup1, pág. 1-19.