Alexandre Galvão Patriota Profile picture
Professor de estatística @usponline. Canal A Ciência Da Estatística https://t.co/hWa0AyjDKb
Jul 26 9 tweets 3 min read
Você fez um teste de hipótese e encontrou um efeito significativo, mas não fez uma análise de resíduos para verificar as suposições do modelo.

Sinto-lhe informar, mas os seus resultados podem não ter relevância científica alguma.

Vou dar um exemplo abaixo. Consider que você observou os dados y1, ..., yn e quer testar a hipótese nula H: μ = 0 (a média populacional é igual a zero)

Para isso faz a suposição: Y1,...,Yn são variáveis aleatórias normais i.i.d.'s com média μ e variância σ².

Sob essa suposição, a estatística do teste

T = raiz(n) * Y.barra / raiz(S²)

tem distribuição t-Student com n-1 graus de liberdade, em que Y.barra é a média amostral e S² a variância amostral (com denominador n-1).

O quadrado de T tem distribuição F(1, n-1).
Jul 8 4 tweets 3 min read
Brasil é um país com o nível de instrução formal muito baixo. Aqui no Twitter temos uma boa amostra de pessoas formadas no ensino médio mas com dificuldades de interpretação de texto básica.

Algumas medidas mostram que o problema é crônico (antigo e persistente). O Brasil fica consistentemente entre os últimos colocados nos exames do PISA (Leitura, Ciências e Matemática) desde o início desse programa que ocorreu em 2020.

Nos gráficos abaixo, não há limites inferiores e superiores, os valores foram padronizados de tal forma que 500 se refere à média dos países da OCDE com desvio padrão de 100.Image No final do vídeo abaixo, eu apresento algumas distribuições das notas médias do PISA:




Image
Image
Image
Oct 11, 2022 6 tweets 2 min read
Reponderando a pesquisa do IPEC (8-10/10) por faixa de renda segundo os parâmetros do PNADc 2021 (linhas verticais).

Obtive os votos totais:

Lula 47,2%
Bolsonaro 46,1%

Os histogramas mostram as distribuições de intenções de votos para outras ponderações incluindo abstenções + Image Dados obtidos do perfil "Central Eleitoral". Não tenho acesso aos dados do IPEC.

Pesos para cada faixa de renda familiar (PNADc):

<1SM: 0.143
1-2SM: 0.233
2-5SM: 0.402
>5SM: 0.221

(não soma 1 por questões de arredondamento) Image
Oct 6, 2022 9 tweets 3 min read
Que coisa! Utilizando os dados do IPEC por faixa de renda e utilizando as ponderações do PNADc 2021 as estimastiva finais ficam COMPLETAMENTE diferentes:

Bolsonaro 51%
Lula 49% O gráfico mostra todas as possíveis estimativas finais obtidas por ponderações diferentes. Isso dá uma ideia geral de todos os cenários possíveis sob niveis diferentes de abstenção.

Os mais frequentes tem barras maiores.
Oct 3, 2022 4 tweets 1 min read
É comum analistas de dados não informarem a incerteza corretamente porque ela poderia "sobrepor o sinal". Esse é o motivo por que se DEVE informar a incerteza.

Se a incerteza for maior do que o sinal, então o sinal não é tão relevante e informando a incerteza você se protege. Quando não se informa a incerteza corretamente ou a subestima propositamente para "mostrar o efeito", o analista não está aplicando a estatística corretamente.

É uma tentativa de "lacrar com a estatística" que quase sempre acaba mal.

Sem variabilidade, a estimativa é chute.
Oct 3, 2022 8 tweets 2 min read
As empresas tradicionais que fazem pesquisa não conseguem captar adequadamente voto no Bolsonaro.

Eu já havia alertado em 2018 sobre o efeito de não-resposta pró-Bolsonaro, i.e., pessoas que não respondem ao questionário com vergonha de se expor na frente de um entrevistador. Isso talvez tenha ficado claro com o resultado de hoje.

Algumas empresas diziam ter captado um "voto envergonhado" em favor do Lula. Se realmente houvesse, Lula teria recebido muito mais votos do que o estimado. Isso não aconteceu.
Sep 28, 2022 5 tweets 2 min read
Aos estatísticos, economistas e analistas de dados em geral:

Estimativa sem a sua variabilidade diz muito pouco sobre a quantidade de interesse. No mínimo uma noção da variabilidade tem que ter, se não tiver é chute.

Em geral precisamos de informações sobre a distribuição da amostra (independencia ou permutabiliade, variância finita, etc) para fazer qualquer inferência aproximada. Só com a variabilidade (máxima) é possível fazer intervalos de confiança conservadores.

Sep 28, 2022 4 tweets 1 min read
Sejam X e Y variáveis segmentadas em dois níveis, a saber, X1 e X2 e Y1 e Y2. Considere que os pesos dos sub-estratos sejam:

X1,Y1: p11
X1,Y2: p12
X2,Y1: p21
X2,Y2: p22

p11+...+p22 = 1.

As estimativas obtidas nos sub-estratos são:
X1,Y1: E11
X1,Y2: E12
X2,Y1: E21
X2,Y2: E22

+ A estimativa final é obtida fazendo:
E = E11*p11 + E12*p12 + E21*p21 + E22*p22

Podemos também obter estimativas para cada nivel:

Nível X1
EX1 = E11 * p11/p1 + E12 * p12/p1
p1 = p11+p12 é o peso para X1

Nível X2
EX2 = E21 * p21/p2 + E22 * p22/p2
p2 = p21+p22 é o peso para X2
Sep 28, 2022 7 tweets 2 min read
Respondendo a dúvida com código:

X = c(56,42,31)
f = function(a) (X[1]*a[1] + X[2]* a[2] + X[3]*(1-a[1]-a[2])-46)^2

fit = optim(f, par=c(0.1,0.3))
fit$par
0.4314292 0.3831720

Ou seja, uma possível configuração de pessos que gera Lula = 46% é

0.43 0.38 0.19 Por 'coincidência' esses pesos também geram a intenção de votos para o Bolsonaro

sum(c(24,36,50)*c(0.43, 0.38, 0.19))
[1] 33.5

e para o Lula
sum(c(56,42,31)*c(0.43, 0.38, 0.19))
[1] 45.93

Será que existem outros pesos que geram as mesmas estimativas??
Sep 28, 2022 7 tweets 2 min read
A Quaest mudou a ponderação por faixa de renda?

Não estou conseguindo reproduzir as estimativas usando dados da PNAD 2021. Tentei 4 tipos de renda e obtive os valores:

Lula 44,9%; 45,2%; 44,9%; 45,2%
Bolso 34,6%; 34,2%; 34,5%; 34,2%

Quaest diz
Lula 46%
Bolso 33% Seguem as ponderações para quatro tipo de renda diferentes Image
Sep 27, 2022 5 tweets 1 min read
A informação inferêncial sobre uma quantidade de interesse está na distribuição de probabilidade do estimador.

Com ela conseguimos verificar se o estimador é viciado, se tem variância alta, qual é a probabildiade de algum evento ocorrer. Na prática essa distribuição não é sempre conhecida, pois não é raro, e.g, que fatores externos influenciem essa distribuição sem nosso conhecimento.

Há formas de fazer inferência se soubermos pelo menos a variância. Podemos usar desigualdades como a de Markov, Tchebychev, etc
Sep 27, 2022 7 tweets 3 min read
Agregado do pollingdata.com.br com as todas pesquisas presenciais e por telefone.

Informação pertinente que poucos estão compreendendo: a variabilidade está aumentando.

Portanto, a incerteza está aumentando. Justamente o inverso do que muitos tem divulgado. Image Presencial. Um dos problemas aqui é que a amostragem é por conglomerados e controlam por faixa de renda. e cada instituto faz uma ponderação diferente.

Para entender o problema da ponderação, o IPEC é um dos que dá mais vantagem para o Lula, entretanto quando reponderado + Image
Sep 26, 2022 6 tweets 2 min read
Uma curiosidade. Se tivermos a variabilidade de um estimador, sempre podemos fazer um IC conservador usando a Desigualdade de Tchebychev

Seja θ.hat um estimador para θ e sd(θ.hat) o seu desvio padrão. Então

θ.hat ± 4.5 * sd(θ.hat)

produz um IC de 95% confiança conservador. Pela desigualdade de Tchebychev

P( |θ.hat - θ | > e) < sd(θ.hat)²/e²

P( |θ.hat - θ | < e) > 1 - sd(θhat)²/e²

Para uma confiança de 0.95 temos

1 - sd(θ.hat)²/e² = 0.95
sd(θ.hat)/√0.05 = e
4.5 * sd(θ.hat) = e



θ.hat ± 4.5 * sd(θ.hat)

é um IC de 95% confiança.
Sep 16, 2022 7 tweets 2 min read
Estimativas Datafolha das intenções de voto atualizadas, considerando a ponderação por faixa de renda PNADc (Linhas verticais)

Lula 43%
Bolsonaro 35%

O histograma mostra a variabilidade possível de outras ponderações por faixa de renda, considerando fixado "Acima de 10SM = 7%" As estimativas divulgadas pelo Datafolha são:

Lula 45%
Bolsonaro 33%

Quando usamos a ponderação do PNADc 2021 elas mudam para:

Lula 43%
Bolsonaro 35%

Lula perde 2p.p. e Bolsonaro ganha 2p.p.
Sep 14, 2022 5 tweets 2 min read
Abaixo considero uma distribuição de ponderações para as faixas de renda, visto que cada instituto/empresa usa um diferente, para a pesquisa IPEC mais recente.

Essa distribuição pode inclusive dar uma ideia do que poderia acontecer em caso de abstenções em cada faixa de renda. Image Os dados são obtidos considerando os valores abaixo para Bolsonaro e Lula.

As ponderações de cada faixa de renda são geradas uniformemente tal que a soma seja exatamente 1.

Ou seja, o gráfico acima denota todas as possibilidades de ponderações. Image
Sep 14, 2022 11 tweets 2 min read
A maioria disse 95%, o que está tecnicamente errado.

Uma estimativa é o valor numerico de um estimador, então vamos considerar o estimador para a analise teórica.

Por definição, um IC exato com confiança γ é definido por

P( I(X,γ) ≤ θ ≤ L(X,γ) ) = γ
+ Considerei a igualdade acima para facilitar a discussão, mas a definição é mais complexa e considera maior igual.

A condição natural é que
I(X,γ) ≤ L(X,γ)

Aqui X representa a amostra aleatória. É comum utilizarmos um estimador para θ na construção do IC, assim um IC +
Sep 13, 2022 4 tweets 1 min read
Nas pesquisas por telefone, Lula e Bolsonaro empatam.

Nas pesquisas presenciais, Lula está a 12 pontos percentuais a frente de Bolsonaro.

Os resultados para o Ciro são similares independentemente da metodologia.

Sinal de que + ImageImage a metodologia produz viés em candidatos específicos. Minha leitura é que há taxa de não-resposta em pesquisas presenciais que poderiam favorecer Bolsonaro (por pressão social/mídia recente) e vieses de cobertura em pesquisas telefônicas que poderiam favorecer Lula (minha leitura)
Sep 8, 2022 4 tweets 1 min read
Gráficos bonitos e aparentemente interessantes. Resta saber qual é a base de dados e quais foram as métricas empregadas. É bom entender bem as limitações dos métodos para não fazer inferências equivocadas. Se a base de dados for limitada a um universo específico, então as inferências devem ser limitadas ao mesmo universo.
Sep 8, 2022 4 tweets 1 min read
Atualização das intenções de votos após 3 semanas do inicio das propagandas políticas.

Pesquisas presenciais e por telefone misturadas 👇 Pesquisas presenciais 👇
Sep 6, 2022 17 tweets 5 min read
Alguns analistas políticos usam as "margens de erro máximas" divulgadas pelas empresas que fazem pesquisas eleitorias para fazer análises politicas.

Esses valores são calculados via Amostragem Aleatória simples (AAS), mas a amostragem é por conglomerados.

Qual é o problema? ImageImageImageImage De acordo com as simulações que fiz, as estimativas obtidas sob amostragem por conglomerados (AC2S) tem resultados similares aos de AAS quando as proporções populacionais em cada conclomerado forem similares.

Se forem diferentes +
Jul 1, 2022 7 tweets 2 min read
Muito interessante a pergunta!

Vou responder como eu penso.

A probabilidade é um objeto matemático definido por meio da teoria de conjuntos. Ela é como a nossa linguagem e serve para descrever eventos incertos. Portanto, a natureza da probabilidade é abstrata criada pelo homem Um evento é incerto quando não temos certeza sobre a sua ocorrência. Um evento é traduzido para um conjunto o qual é listado em uma sigma-álgebra.

A medida de probabilidade é uma função matemática bem definida dentro da teoria de conjuntos.