, 50 tweets, 13 min read
Agora, chegamos na parte 3 da thread sobre testes de hipóteses. Nesta thread falaremos apenas sobre p-valores: a definição do p-valor, e o que ele não é!
A definição parece simples, mas gera muita confusão.
Os p-valores surgiram nos testes de significância de Fisher.
Recentemente, vemos uma preocupação grande acerca do tema:
A questão acerca do abuso e das interpretações equivocadas é tão relevante que fizeram uma edição especial da American Statistician só sobre o tema:
tandfonline.com/toc/utas20/73/…
Além disso, a American Statistics Association se viu obrigada a emitir uma declaração sobre p-valores:
doi.org/10.1080/000313…

Mas essa preocupação não é nova. O próprio Fisher sempre tomou muito cuidado com as definições e interpretações.
Mas mesmo assim, vale a pena citar alguns artigos mais antigos já levantando esses problemas acerca do p-valor:
psycnet.apa.org/record/1995-12…

dx.doi.org/10.1080/016214…

dx.doi.org/10.1198/000313…
Saiu até um artigo na Nature sobre o tema: dx.doi.org/10.1038/506150a

Assim, vemos que o tema é extremamente relevante.

Dito isso, vamos aos p-valores.
A primeira coisa que devemos fazer é entender a interpretação frequentista dos testes de hipóteses fornecida por Neyman na teoria de testes de hipóteses que vimos, e depois vamos definir o p-valor e ver a interpretação fornecida por Fisher, para visualizarmos as diferenças.
Uma observação é que os p-valores foram introduzidos por Fisher e vieram antes dos testes de hipóteses no formato que vimos (com hipóteses alternativas e etc). Fisher inclusive criticou muito as hipóteses alternativas, dizendo que não faziam sentido na ciência.
Na interpretação frequentista, fixamos um nível de significância α, e nessa ideia, se realizarmos uma sequência infinita de experimentos independentes sob a hipótese nula, então a proporção dos erros tipo 1 cometidos irá convergir para α.
Observe que na teoria de testes de hipóteses segundo Neyman e Pearson o foco está na interpretação frequentista e esta não se preocupa com o teste individual e sim com uma sequência sistemática de testes.
Já o Fisher definiu o p-valor para medir a “força” da evidência contra a hipótese nula. Seguindo a ASA, o p-valor é a probabilidade, sob a hipótese nula, da estatística do teste ser igual ou mais extrema, do que o valor efetivamente observado.
Olhando para o exemplo da senhora que toma chá (na parte 2 desta thread), temos que a estatística é o número de acertos em que o leite foi colocado primeiro. Assim, o p-valor seria a probabilidade de obter um número igual ou maior de acertos.
Em vários exemplos a estatística de teste toma valores nos reais, e a região crítica é um intervalo ou união de dois intervalos. Nestes exemplos, determinar a região crítica é determinar C tal que:
P₀(|T| > C) = α ou P₀(T > C) = α ou P₀(T < C) = α,
onde T é a estat. do teste
Nestes casos, podemos calcular o p-valor da seguinte forma: Dados os valores observados, calculamos a estatística para estes valores e obtemos o valor t₀. Assim, temos que
p-valor = P₀(|T| >|t₀|) ou P₀(T > t₀) ou P₀(T<t₀) , resp.

E o que ele nos diz?
Ele nos diz a probabilidade de ocorrer um evento “mais extremo” do que o observado sob a hipótese nula.

Observe que no p-valor estamos assumindo H₀!!
A primeira observação é que existe uma “compatibilidade” entre o p-valor e o teste de hipótese segundo Neyman-Pearson, que vimos. De fato, se o p-valor for menor do que α, significa que rejeitaríamos H₀ ao nível de significância α se fizéssemos o teste.
Embora exista essa compatibilidade, existem estatísticos de peso que defendem que as pessoas não deveriam utilizar o p-valor para realizar testes de hipóteses no espírito N-P por uma questão de interpretação. Ou seja, se for pra usar p-valor, interprete-o!
Então, se temos um p-valor de, digamos, 0.001, isto apenas nos diz que se a hipótese nula for verdadeira, a chance de um evento como esse ocorrer é de apenas 0,1%!!

ERRO COMUM: Acreditar que o p-valor é a probabilidade de H₀ ser verdadeiro.
Na realidade o p-valor assume que H₀ é verdadeiro e calcula o quão raro seria ter um evento igual ou mais “extremo” nessa situação.
Inclusive, para Fisher, um experimento seria considerado “estabelecido experimentalmente” se, ao reproduzir o experimento, seria raro o teste fornecer p-valor maior do que 0.05. (ver digital.library.adelaide.edu.au/dspace/bitstre…)
Curiosamente, apesar de em vários escritos Fisher sugerir o uso do nível de significância usual de 0.05 (5%), ele foi crítico feroz de Neyman e Pearson por fixarem o nível de significância em seus testes, argumentando que cada experimento deveria ter uma significância diferente.
Outro ERRO COMUM: Acreditar que o p-valor é a probabilidade de se obter o resultado do experimento ao acaso.

P-valor não é isso, pois, assim como mencionado anteriormente, ele assume H₀ verdadeiro. Então, a afirmação acima só seria verdade se H₀ fosse sempre verdadeiro!
Mais um erro comum entre pesquisadores: Realizar um experimento várias vezes e só reportar aquele com p-valor < 0.05. É fundamental que sejam reportados os outros que “falharam”. Pois isso afeta fortmente a distribuição e as conclusões.
Mais detalhes em: en.wikipedia.org/wiki/Multiple_…
Um fato importante: p-valor NÃO fornece um cálculo sobre a teoria que está sendo testada! O p-valor apenas avalia os dados e fornece (caso as suposições estejam corretas) uma medida de contradição com relação à hipótese (estatística) postulada. Logo, o p-valor NÃO VALIDA TEORIAS!
Para deixar mais claro, me refiro a teorias “não-matemáticas” (por falta de expressão melhor). Por exemplo, existem artigos do tipo “Usar o remédio X não influencia colesterol”, e o que é feito é um teste de comparação de médias em uma amostra de tamanho n=30.
O teste de comparação de médias não é suficiente para fornecer a conclusão que se está sendo tirada. Primeiro tem que ver a teoria biológica por trás, depois a forma de amostragem, depois a replicabilidade, etc. Mas tudo o que se faz é um teste de médias com n=30….
O p-valor te ajuda a (como Fisher gostava de falar) refutar teorias. Ele serve para vc desconsiderar os resultados que não foram considerados significativos. Mas caso você rejeite H₀, ele não prova que a sua teoria é válida e nem prova que H₀ é verdadeiro (sim que é inesperado)
Inclusive, a má interpretação do p-valor, leva as pessoas o usarem como se fosse uma evidência mais forte contra a hipótese nula do que ele realmente é.
Não é possível calcular P(H₀ ), mas utilizando inferência Bayesiana (que possui alguma subjetividade) dá para estimar.
royalsocietypublishing.org/doi/pdf/10.109…
No artigo acima, é possível ver alguns exemplos.

Voltando para o p-valor. O efeito prático disso é que vários pesquisadores agem como se para provar uma teoria fosse suficiente realizar um teste e obter p-valor < 0.05.
O negócio é tão sério que um artigo (já citado acima) brincou, dizendo que só falta o pessoal anunciar a teoria com a afirmação e o “p<0.05” ao lado, como no título “A terra é redonda, p<0.05”.
Parece piada, mas é algo que é, de fato, feito.
Um amigo meu, fez estágio num instituto de saúde de excelência, há uns anos atrás, e me contou que uma vez viu um médico usando um desses programas estatísticos com menu, e saiu clicando em todos os testes do menu até achar algum em que p<0.05.
Esse meu amigo perguntou ao médico “Por quê você está usando o teste X nesses dados?” e o médico respondeu “Estava precisando de um teste cujo p-valor fosse menor que 5%”. Agora, note que isso ocorreu num instituto de excelência!!! Imagina em lugares menos qualificados.
Outro fato é que se você mexer nos dados em função do p-valor, buscar diversos testes diferentes, etc., você obtém p < 0.05 mesmo que a hipótese nula seja verdadeira (o famoso, torturar os dados até eles confessarem). Ou seja, não é difícil obter p < 0.05.
Essa prática de fazer a pesquisa em função do p-valor, e mexer, procurar, até obter o p-valor menor que 0.05 foi chamada de p-hacking e muita gente o faz consciente, porém tem muita gente que faz sem nem saber que está fazendo. Por isso é importante entender bem sobre o p-valor.
Existe também o chamado “Garden of the Forking paths”:
Recomendo a leitura do artigo para ver a linha argumentativa: stat.columbia.edu/~gelman/resear…
Abaixo descrevo brevemente o fenômeno.
A ideia basicamente sendo (no estilo das múltiplas comparações mas com mais sutilezas), que um pesquisador, vai fazendo informalmente pequenos “testes”, por meio das decisões que ele toma, que influenciam os dados para o p-valor ficar pequeno.
Esta lista de usos equivocados está longe de ser exaustiva. Colocarei agora mais referências (além das já citadas) que acredito que podem ser úteis acerca desse tema.
link.springer.com/article/10.100…
Vamos agora falar sobre Neyman e Pearson de um lado e Fisher do outro. Houve muita briga e discussão entre eles. Principalmente entre Neyman e Fisher.

O coração do problema sendo que Fisher achava que não deveria existir hip. alternativa. Havendo outras divergências.
A primeira crítica de Fisher é que não deveria existir a hipótese alternativa. Ou você não rejeitava a hipótese nula, ou rejeitava e pronto. Colocar uma hipótese alternativa não fazia nenhum sentido para Fisher. Já Neyman defendia a hipótese alternativa por conta do poder.
Não dá para calcular o poder do teste sem definir a hipótese alternativa. Assim, não seria simples realizar a escolha entre testes diferentes para o mesmo objetivo, já que não teria um critério bom de otimalidade.
O argumento de Fisher de que a hipótese alternativa não seria realista era rebatido por Neyman que afirmava que uma pesquisador experiente teria ideia de qual seria a hipótese alternativa indicada e saberia escolher o teste mais poderoso para suas necessidades.
Outra crítica de Fisher a Neyman e Pearson é que ele achava que o nível de significância não deveria permanecer fixado para todos os testes, e sim deveria ser escolhido individualmente. Afinal “uma pessoa não usa o mesmo nível de significância para escolher tudo na vida”
Mas curiosamente, foi Fisher quem defendeu o uso do nível usual de significância de 5%. Os próprios Neyman e Pearson no seu artigo original argumentavam que a escolha do nível deveria levar em consideração o poder do teste. Então é uma crítica bem curiosa.
Já vimos acima a visão de Fisher (p-valor) e N-P (teste de hipótese + poder). Além disso, usamos um misto das ideias deles.
É interessante argumentar que nas discussões eles baixavam o nível:
Sobre a controvérsia, discussão e modelagem estatística acerca de Neyman-Pearson e Fisher, recomendo:
jstor.org/stable/3541653
jstor.org/stable/2291263
projecteuclid.org/euclid.ss/1056…
amazon.com/Fisher-Neyman-…
A título de curiosidade existe um artigo onde mostra-se como seria um “p-valor” à là Neyman-Pearson (ou seja, que também fornece informação sobre o poder):
jstor.org/stable/4616108
Livro de divulgação científica que lida sobre o tema:
amazon.com/Lady-Tasting-T…
@agpatriota Com isso encerramos nossa parte 4 sobre p-valores! Com certeza não consegui cobrir todos os problemas com seu uso (lembrem-se o problema não é com o p-valor, é com a interpretação equivocada que fazem dele!). Se você souber de mais algum, por favor comente!
@agpatriota Aproveito mais uma vez para agradecer os comentários e sugestões de @rationalexpec e @agpatriota.
Missing some Tweet in this thread?
You can try to force a refresh.

Like this thread? Get email updates or save it to PDF!

Subscribe to Alexandre Simas
Profile picture

Get real-time email alerts when new unrolls are available from this author!

This content may be removed anytime!

Twitter may remove this content at anytime, convert it as a PDF, save and print for later use!

Try unrolling a thread yourself!

how to unroll video

1) Follow Thread Reader App on Twitter so you can easily mention us!

2) Go to a Twitter thread (series of Tweets by the same owner) and mention us with a keyword "unroll" @threadreaderapp unroll

You can practice here first or read more on our help page!

Follow Us on Twitter!

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just three indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3.00/month or $30.00/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!