, 55 tweets, 21 min read
Olá pessoal, vamos continuar agora com a parte 2 da nossa thread sobre testes de hipóteses.
Para retomar a thread, vamos começar definindo o que são testes paramétricos, testes não-paramétricos, e fornecendo exemplos.
Para fornecer essa definição, precisamos falar de modelos estatísticos. Um modelo estatístico consiste de duas componentes: O espaço amostral e a família de distribuições. O espaço amostral consiste do conjunto de todos os valores possíveis que as observações podem assumir.
Já a família de distribuições, consiste de todas as distribuições de probabilidade que temos interesse em trabalhar do ponto de vista estatístico (basicamente, as distribuições de probabilidade que acreditamos que nossos dados podem seguir).
A distinção entre modelo paramétrico e não-paramétrico leva em consideração apenas a família de distribuições de probabilidade. Em geral sempre podemos indexar as distribuições por um parâmetro vetorial (que pode ter até infinitas coordenadas!!)
De maneira informal, dizemos que o modelo é paramétrico se a família pode ser indexada por um parâmetro com uma quantidade finita de coordenadas, e não-paramétrico se o parâmetro precisa de infinitas coordenadas para conseguir listar todas as distribuições da família.
Existem também os modelos semi-paramétricos, que não iremos tratar aqui.
Exemplo de modelos estatísticos paramétricos:
1. Família de distribuições normais com média μ e variância σ² (duas coordenadas)
2. Família de distribuições Poisson com média λ (uma coordenada)
Etc..
Exemplos de modelos não-paramétricos:
1. Distribuições de probabilidade com função de densidade de probabilidade (distribuições contínuas);
2. Distribuições com variância finita;
3. Distribuições com média finita;
Etc.
Testes paramétricos são testes construídos em modelos estatísticos paramétricos e testes não-paramétricos são testes construídos em modelos estatísticos não-paramétricos.

Fato da vida: Testes não-paramétricos costumam ser mais gerais do que os paramétricos
Os testes não-paramétricos são mais gerais porque impõe menos restrições sobre as distribuições (e portanto, funcionam para mais tipos de dados).

Mas como tudo na vida, o cobertor é sempre curto: A maioria dos testes não-paramétricos são assintóticos!
E, sendo assintóticos, precisam de tamanho amostral grande, ou seja, precisam de muitas observações. Muita gente comete o erro de usar testes assintóticos para tamanhos amostrais pequenos, o que acaba comprometendo a validade do teste.
Como fazer para saber se o teste não-paramétrico em questão é assintótico?
Uma forma que tipicamente funciona bem é verificar qual a distribuição utilizada para construção da região crítica.

Se for normal, ou t, ou F, ou qui-quadrado, muito provavelmente é assintótico.
A razão é que essas distribuições “nascem” da distribuição normal padrão, que costuma ser obtida pelo teorema central do limite, que é um resultado assintótico.

Assim, por favor não utilize um teste não-paramétrico assintótico com tamanho amostral pequeno, tipo N=10.
Mas existem testes não-paramétricos exatos! O exemplo clássico é o teste exato de Fisher.

Vamos ilustrar o teste exato de Fisher com um exemplo ilustrativo fornecido pelo próprio Fisher (agradeço ao @rationalexpec pela sugestão)
en.wikipedia.org/wiki/Lady_tast…
@rationalexpec O exemplo considera uma senhora que afirma que considera que numa xícara de chá com leite, ela consegue afirmar o que foi servido primeiro: o chá ou o leite. O objetivo seria formular um teste para verificar essa afirmação.
@rationalexpec O exemplo foi apresentado no capítulo 2 do livro:
amazon.com/Design-Experim…

Recomendo a leitura do capítulo a todos, nele ele comenta com detalhes como o teste deve ser construído, como realizar a randomização, etc.
@rationalexpec O teste proposto por Fisher consiste em apresentar 8 xícaras de chá com leite, em ordem aleatória, onde em 4 delas o leite foi servido primeiro e nas outras 4 o chá foi servido primeiro e a senhora provar as xícaras e determinar se o leite ou o chá foi servido primeiro.
@rationalexpec Além disso, a metodologia é apresentada para a senhora que irá provar o chá.
A hipótese nula sendo que ela não consegue identificar as diferenças.
A randomização é realizada de tal forma que cada arranjo de 8 xícaras possui a mesma probabilidade de aparecer.
@rationalexpec Vamos então agora determinar nossa região crítica.
Basta determinar o número de acertos que devemos ter nas xícaras em que o leite foi colocado primeiro (pois cada erro aqui, corresponde a um erro na xícara com chá primeiro).
@rationalexpec Desta forma, supondo que a hipótese nula é verdadeira (que não é possível distinguir entre o que foi colocado primeiro, ou seja, que as escolhas serão aleatórias com igual probabilidade), temos 70 formas possíveis de distribuir 4 xícaras com leite primeiro entre as 8 xícaras.
@rationalexpec Temos uma única forma de acertar as 4 xícaras, o que torna a probabilidade do evento “acertar todas” ser 1/70 ≈ 1,4%. Temos 16 formas de acertar 3 xícaras e errar 1, o que fornece a probabilidade 16/70 ≈ 22,8%. Assim, acertar 3 xícaras ou mais tem prob. 17/70 ≈ 24,3%
@rationalexpec Note que um evento com prob. 24,3% não é um evento incomum de ocorrer ao acaso. Lembremos que o nível de significância usual é de 5%. Como estamos num espaço amostral discreto, não é possível obter o nível exato de 5%, vamos então pegar o mais próximo que fique abaixo disso.
@rationalexpec Assim, nossa região crítica para o teste de hipóteses será “acertar todas as xícaras”. Pois este evento tem prob. 1,4% de ocorrer por puro acaso, e é a única possibilidade que fornece uma probabilidade de erro tipo 1 abaixo do nível usual de 5%.
@rationalexpec Uma observação, que inclusive é enfatizada por Fisher, é que este teste não permite provar que a senhora consegue detectar as diferenças, mesmo que ela acerte as 4. Temos que, na realidade, o método serve para refutar a hipótese nula.
@rationalexpec De fato, o que estamos mostrando é que, se a hipótese nula for verdadeira, o que estamos mostrando é que seria um evento raro acontecer o que foi presenciado (em caso de rejeição). Mas não é impossível de ocorrer ao acaso. Além disso, é possível cometer erros do tipo 2 também.
@rationalexpec Relembrando, o teste acima é um exemplo de aplicação do teste exato de Fisher.

Exemplos de testes não-paramétricos assintóticos:
Teste de Kruskal-Wallis (versão não-paramétrica da Anova de um fator)
algoritmo pra obter a distribuição exata: doi.org/10.1081/SAC-12…
@rationalexpec Teste de Mann-Whitney (alternativa ao teste t)
Teste de Wilcoxon (alternativa ao teste t pareado)
Etc

Livros para quem quiser se aprofundar:
amazon.com/Nonparametrics…
(escrito pelo Lehmann… Já diz tudo. Mas não é para todos)
@rationalexpec amazon.com/Applied-Nonpar…
(foco em aplicações de testes)
amazon.com/Nonparametric-… (bem completo matematicamente, não é para todos)
@rationalexpec Com relação aos testes paramétricos, é mais fácil termos distribuições exatas, já que temos uma expressão explícita para suas distribuições, mas essa facilidade é, na realidade, um cobertor curto. De fato, temos que assumir que o conjunto de dados pertence à família considerada.
@rationalexpec E verificar que o conjunto de dados pertence à família de distribuições considerada nem sempre é verdade e deve ser verificado ou testado, o que nem sempre é fácil. O erro mais comum entre as pessoas que aplicam testes paramétricos é esse: não verificam as suposições do teste.
@rationalexpec Não vou citar muitos exemplos de testes paramétricos pois são os mais comuns.
O meu objetivo principal aqui foi citar a diferença entre os dois tipos de testes, e chamar atenção que vários testes não-paramétricos são assintóticos e com isso o tamanho amostral deve ser grande.
@rationalexpec Vamos agora definir o poder de um teste de hipóteses. Para tanto, relembre da parte 1 desta thread as definições de erro tipo I e erro tipo II:
@rationalexpec Assim, o nível de significância α (prob. de cometer erro tipo 1) satisfaz:
P₀(Estatística do teste ∈ C) = 1-α,
onde C é a região de aceitação, e P₀ é a medida de prob. supondo H₀ verdadeira.
Além disso, para cada P₁∈H₁, denote
Erro Tipo II = β(P₁),
pois depende de P₁.
@rationalexpec Assim, na hora de construir a estatística de teste, decidimos controlar o erro tipo I, mas gostaríamos também de minimizar o erro tipo II, afinal, o que queremos é errar o mínimo possível.
É aí que entra o poder do teste, que é a probabilidade de não cometer erro tipo II
@rationalexpec Assim, o poder do teste é a prob. de rejeitar H₀ dado H₁ verdadeiro. O poder vai depender da dist. escolhida em H₁ (tipicamente indexada por um parâmetro). Assim, se P₁ é uma dist. supondo H₁ verdadeira, então o poder é:
Poder(P₁) = 1- 1-β(P₁)= P₁(Teste não pertencer a C)
@rationalexpec A estratégia de teste de hipóteses de Neyman e Pearson consiste em: fixar um nível de significância α, e entre todos os testes com nível de significância menor ou igual a α, escolher o teste que tem maior poder e usá-lo. Eles então estudaram o poder do teste.
@rationalexpec Sobre Neyman e Pearson (ainda veremos mais sobre eles):
link.springer.com/chapter/10.100…
royalsocietypublishing.org/doi/abs/10.109…
doi.org/10.1093/biomet…

Voltando ao poder do teste:
@rationalexpec Precisamos definir rapidamente o que é uma hipótese simples e o que é uma hipótese composta:
Hipótese simples: Determina a distribuição de probabilidade;
Hipótese composta: Não determina.
Exemplo: População normal com média μ e variância 1:
Hip. simples: μ=0
Hip. composta: μ≥0
@rationalexpec Neyman e Pearson, no artigo doi.org/10.1098%2Frsta…
resolveram o problema de encontrar o teste com maior poder (teste mais poderoso) quando estamos testando um cenário com Hipóteses nula e alternativa simples.
O teste mais poderoso é uma razão de verossimilhanças
@rationalexpec Quando temos hipóteses compostas, temos a noção de teste uniformemente mais poderoso.
O teste é uniformemente mais poderoso se é mais poderoso contra todas cada alternativa simples dentro de H₁, mantendo o nível de significância α.
@rationalexpec Exemplo: População normal com média μ e variância 1:
Faça H₀: μ = 0 vs. H₁: μ>0.
Nas hipóteses acima, para o teste ser uniformemente mais poderoso, ele deve que ser mais poderoso quando consideradas todas as hipóteses:
H₀: μ = 0 vs. H₁: μ=μ₁,
para todos os valores μ₁> 0.
@rationalexpec No exemplo acima, o teste uniformemente mais poderoso (TUMP) vai existir, mas nem sempre é verdade.
Exemplo: População normal com média μ e variância 1:
Caso 1. H₀: μ = 0 vs. H₁: μ = 1 (simples contra simples)
O teste mais poderoso (TMP) existe
@rationalexpec Caso 2. H₀: μ = 0 vs. H₁: μ > 0 (simples contra composta unilateral)
TUMP existe
Caso 3. H₀: μ ≤ 0 vs. H₁: μ > 0 (composta contra composta unilateral)
TUMP existe
Caso 4. H₀: μ = 0 vs. H₁: μ ≠ 0 (simples contra composta bilateral)
TUMP não existe!
@rationalexpec O teorema de Karlin-Rubin fornece hipóteses para podermos construir um teste uniformemente mais poderoso. en.wikipedia.org/wiki/Uniformly… (ver seção do Teo. de Karlin-Rubin).
Exemplo importante de aplicação de Karlin-Rubin: Família exponencial
@rationalexpec Assim, é possível construir testes uniformemente mais poderosos para os parâmetros das distribuições da família exponencial (que é uma família IMPORTANTÍSSIMA da estatística que contém diversas famílias de distribuições como caso particular, por ex., normal, gama, binomial, etc.)
@rationalexpec Sempre que existir um teste uniformemente mais poderoso, recomenda-se o uso deste. Tipicamente não o teste unif. mais poderoso não existe se o teste é bilateral, por exemplo:
H₀: μ = 0 vs. H₁: μ ≠ 0.
Porém existe se for unilateral, exemplo:
H₀: μ≤ 0 vs. H₁: μ >0
@rationalexpec Desta forma, se você está num exemplo prático, e você imagina que se o erro ocorrer, ele irá ocorrer numa direção, nunca na outra (por exemplo, se for errar, vai errar só pra mais, ou só pra menos), o recomenda-se buscar um teste unilateral unif. mais poderoso, pois pode existir.
@rationalexpec Para demonstrações destes teoremas e aprofudamento acerca da teoria em geral recomendo a thread do @rationalexpec :
rational-expectations.com/2019/07/mathem…
@rationalexpec Adicionalmente, alguns livros que NÃO estão na thread e também recomendo:
Nível Básico: (fora os que ele citou só conheço esse)
loja.sbm.org.br/index.php/sbm/…
@rationalexpec Nível Intermediário/Avançado:

Coloquei intermediário/avançado pois não são muito avançados mas precisa saber teoria da medida.

Outro ponto: o foco aqui são livros com boa teoria de teste de hipóteses, não estatística em geral
@rationalexpec amazon.com/Mathematical-S… (bom livro, bem escrito e bem completo com relação ao básico)
amazon.com/Lectures-Mathe…
(Livro muito bom também, bem preciso)
@rationalexpec amazon.com/Theory-Statist… (o autor tem viés bayesiano, tem gente que se incomoda, mas o livro é bom)
amazon.com/Mathematical-S… (gosto muito, na amazon a reclamação não é com o livro)
@rationalexpec Como ficou longo e o tema “p-valor” merece um destaque pois, querendo ou não, infelizmente é um tema polêmico, pois muita gente confunde seu significado e superestima sua informação. Resolvi transformar a parte 3 só em “p-valor” e a antiga Parte 3 vira Parte 4.
@rationalexpec Vou escrever a parte 3 sobre “p-valor” nos próximos dias, já comecei a escrever.
Espero que tenham gostado desta parte e que gostem da próxima.
Basicamente até agora vimos uma ótica estilo Neyman-Pearson, com nível de significância fixado e poder do teste.
@rationalexpec O teste de hipóteses via p-valor tem uma ótica estilo Fisher, e como antecipado na Parte 1, rolou treta entre Neyman e Pearson de um lado e Fisher do outro, justamente por essa diferença filosófica de abordagens. Veremos isso!! Hoje em dia usamos uma mistura entre Fisher e N-P.
@rationalexpec Mais uma vez, agradeço @rationalexpec e @agpatriota pelos comentários e sugestões.
Missing some Tweet in this thread?
You can try to force a refresh.

Like this thread? Get email updates or save it to PDF!

Subscribe to Alexandre Simas
Profile picture

Get real-time email alerts when new unrolls are available from this author!

This content may be removed anytime!

Twitter may remove this content at anytime, convert it as a PDF, save and print for later use!

Try unrolling a thread yourself!

how to unroll video

1) Follow Thread Reader App on Twitter so you can easily mention us!

2) Go to a Twitter thread (series of Tweets by the same owner) and mention us with a keyword "unroll" @threadreaderapp unroll

You can practice here first or read more on our help page!

Follow Us on Twitter!

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just three indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3.00/month or $30.00/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!