Alexandre Galvão Patriota's Threads

Jul 26, 2024 • 9 tweets • 3 min read

Você fez um teste de hipótese e encontrou um efeito significativo, mas não fez uma análise de resíduos para verificar as suposições do modelo.

Sinto-lhe informar, mas os seus resultados podem não ter relevância científica alguma.

Vou dar um exemplo abaixo. Consider que você observou os dados y1, ..., yn e quer testar a hipótese nula H: μ = 0 (a média populacional é igual a zero)

Para isso faz a suposição: Y1,...,Yn são variáveis aleatórias normais i.i.d.'s com média μ e variância σ².

Sob essa suposição, a estatística do teste

T = raiz(n) * Y.barra / raiz(S²)

tem distribuição t-Student com n-1 graus de liberdade, em que Y.barra é a média amostral e S² a variância amostral (com denominador n-1).

O quadrado de T tem distribuição F(1, n-1).

Jul 8, 2024 • 4 tweets • 3 min read

Brasil é um país com o nível de instrução formal muito baixo. Aqui no Twitter temos uma boa amostra de pessoas formadas no ensino médio mas com dificuldades de interpretação de texto básica.

Algumas medidas mostram que o problema é crônico (antigo e persistente). O Brasil fica consistentemente entre os últimos colocados nos exames do PISA (Leitura, Ciências e Matemática) desde o início desse programa que ocorreu em 2020.

Nos gráficos abaixo, não há limites inferiores e superiores, os valores foram padronizados de tal forma que 500 se refere à média dos países da OCDE com desvio padrão de 100.

No final do vídeo abaixo, eu apresento algumas distribuições das notas médias do PISA:

Oct 11, 2022 • 6 tweets • 2 min read

Reponderando a pesquisa do IPEC (8-10/10) por faixa de renda segundo os parâmetros do PNADc 2021 (linhas verticais).

Obtive os votos totais:

Lula 47,2%
Bolsonaro 46,1%

Os histogramas mostram as distribuições de intenções de votos para outras ponderações incluindo abstenções +

Dados obtidos do perfil "Central Eleitoral". Não tenho acesso aos dados do IPEC.

Pesos para cada faixa de renda familiar (PNADc):

<1SM: 0.143
1-2SM: 0.233
2-5SM: 0.402
>5SM: 0.221

(não soma 1 por questões de arredondamento)

Oct 6, 2022 • 9 tweets • 3 min read

Que coisa! Utilizando os dados do IPEC por faixa de renda e utilizando as ponderações do PNADc 2021 as estimastiva finais ficam COMPLETAMENTE diferentes:

Bolsonaro 51%
Lula 49%

https://twitter.com/CentralEleicoes/status/1577781604616904715

O gráfico mostra todas as possíveis estimativas finais obtidas por ponderações diferentes. Isso dá uma ideia geral de todos os cenários possíveis sob niveis diferentes de abstenção.

Os mais frequentes tem barras maiores.

Oct 3, 2022 • 4 tweets • 1 min read

É comum analistas de dados não informarem a incerteza corretamente porque ela poderia "sobrepor o sinal". Esse é o motivo por que se DEVE informar a incerteza.

Se a incerteza for maior do que o sinal, então o sinal não é tão relevante e informando a incerteza você se protege. Quando não se informa a incerteza corretamente ou a subestima propositamente para "mostrar o efeito", o analista não está aplicando a estatística corretamente.

É uma tentativa de "lacrar com a estatística" que quase sempre acaba mal.

Sem variabilidade, a estimativa é chute.

Oct 3, 2022 • 8 tweets • 2 min read

As empresas tradicionais que fazem pesquisa não conseguem captar adequadamente voto no Bolsonaro.

Eu já havia alertado em 2018 sobre o efeito de não-resposta pró-Bolsonaro, i.e., pessoas que não respondem ao questionário com vergonha de se expor na frente de um entrevistador. Isso talvez tenha ficado claro com o resultado de hoje.

Algumas empresas diziam ter captado um "voto envergonhado" em favor do Lula. Se realmente houvesse, Lula teria recebido muito mais votos do que o estimado. Isso não aconteceu.

Sep 28, 2022 • 5 tweets • 2 min read

Aos estatísticos, economistas e analistas de dados em geral:

Estimativa sem a sua variabilidade diz muito pouco sobre a quantidade de interesse. No mínimo uma noção da variabilidade tem que ter, se não tiver é chute.

https://twitter.com/agpatriota/status/1572982108611612672

Em geral precisamos de informações sobre a distribuição da amostra (independencia ou permutabiliade, variância finita, etc) para fazer qualquer inferência aproximada. Só com a variabilidade (máxima) é possível fazer intervalos de confiança conservadores.

https://twitter.com/agpatriota/status/1574506062832668673

Sep 28, 2022 • 4 tweets • 1 min read

Sejam X e Y variáveis segmentadas em dois níveis, a saber, X1 e X2 e Y1 e Y2. Considere que os pesos dos sub-estratos sejam:

X1,Y1: p11
X1,Y2: p12
X2,Y1: p21
X2,Y2: p22

p11+...+p22 = 1.

As estimativas obtidas nos sub-estratos são:
X1,Y1: E11
X1,Y2: E12
X2,Y1: E21
X2,Y2: E22

+ A estimativa final é obtida fazendo:
E = E11*p11 + E12*p12 + E21*p21 + E22*p22

Podemos também obter estimativas para cada nivel:

Nível X1
EX1 = E11 * p11/p1 + E12 * p12/p1
p1 = p11+p12 é o peso para X1

Nível X2
EX2 = E21 * p21/p2 + E22 * p22/p2
p2 = p21+p22 é o peso para X2

Sep 28, 2022 • 7 tweets • 2 min read

Respondendo a dúvida com código:

X = c(56,42,31)
f = function(a) (X[1]*a[1] + X[2]* a[2] + X[3]*(1-a[1]-a[2])-46)^2

fit = optim(f, par=c(0.1,0.3))
fit$par
0.4314292 0.3831720

Ou seja, uma possível configuração de pessos que gera Lula = 46% é

0.43 0.38 0.19

https://twitter.com/cataploft/status/1575163577111302147

Por 'coincidência' esses pesos também geram a intenção de votos para o Bolsonaro

sum(c(24,36,50)*c(0.43, 0.38, 0.19))
[1] 33.5

e para o Lula
sum(c(56,42,31)*c(0.43, 0.38, 0.19))
[1] 45.93

Será que existem outros pesos que geram as mesmas estimativas??

Sep 28, 2022 • 7 tweets • 2 min read

A Quaest mudou a ponderação por faixa de renda?

Não estou conseguindo reproduzir as estimativas usando dados da PNAD 2021. Tentei 4 tipos de renda e obtive os valores:

Lula 44,9%; 45,2%; 44,9%; 45,2%
Bolso 34,6%; 34,2%; 34,5%; 34,2%

Quaest diz
Lula 46%
Bolso 33%

https://twitter.com/felipnunes/status/1574960971982213121

Seguem as ponderações para quatro tipo de renda diferentes

Sep 27, 2022 • 5 tweets • 1 min read

A informação inferêncial sobre uma quantidade de interesse está na distribuição de probabilidade do estimador.

Com ela conseguimos verificar se o estimador é viciado, se tem variância alta, qual é a probabildiade de algum evento ocorrer. Na prática essa distribuição não é sempre conhecida, pois não é raro, e.g, que fatores externos influenciem essa distribuição sem nosso conhecimento.

Há formas de fazer inferência se soubermos pelo menos a variância. Podemos usar desigualdades como a de Markov, Tchebychev, etc

Sep 27, 2022 • 7 tweets • 3 min read

Agregado do pollingdata.com.br com as todas pesquisas presenciais e por telefone.

Informação pertinente que poucos estão compreendendo: a variabilidade está aumentando.

Portanto, a incerteza está aumentando. Justamente o inverso do que muitos tem divulgado.

Presencial. Um dos problemas aqui é que a amostragem é por conglomerados e controlam por faixa de renda. e cada instituto faz uma ponderação diferente.

Para entender o problema da ponderação, o IPEC é um dos que dá mais vantagem para o Lula, entretanto quando reponderado +

Sep 26, 2022 • 6 tweets • 2 min read

Uma curiosidade. Se tivermos a variabilidade de um estimador, sempre podemos fazer um IC conservador usando a Desigualdade de Tchebychev

Seja θ.hat um estimador para θ e sd(θ.hat) o seu desvio padrão. Então

θ.hat ± 4.5 * sd(θ.hat)

produz um IC de 95% confiança conservador.

https://twitter.com/agpatriota/status/1572982108611612672

Pela desigualdade de Tchebychev

P( |θ.hat - θ | > e) < sd(θ.hat)²/e²

P( |θ.hat - θ | < e) > 1 - sd(θhat)²/e²

Para uma confiança de 0.95 temos

1 - sd(θ.hat)²/e² = 0.95
sd(θ.hat)/√0.05 = e
4.5 * sd(θ.hat) = e

⇒

θ.hat ± 4.5 * sd(θ.hat)

é um IC de 95% confiança.

Sep 16, 2022 • 7 tweets • 2 min read

Estimativas Datafolha das intenções de voto atualizadas, considerando a ponderação por faixa de renda PNADc (Linhas verticais)

Lula 43%
Bolsonaro 35%

O histograma mostra a variabilidade possível de outras ponderações por faixa de renda, considerando fixado "Acima de 10SM = 7%"

As estimativas divulgadas pelo Datafolha são:

Lula 45%
Bolsonaro 33%

Quando usamos a ponderação do PNADc 2021 elas mudam para:

Lula 43%
Bolsonaro 35%

Lula perde 2p.p. e Bolsonaro ganha 2p.p.

Sep 14, 2022 • 5 tweets • 2 min read

Abaixo considero uma distribuição de ponderações para as faixas de renda, visto que cada instituto/empresa usa um diferente, para a pesquisa IPEC mais recente.

Essa distribuição pode inclusive dar uma ideia do que poderia acontecer em caso de abstenções em cada faixa de renda.

https://twitter.com/agpatriota/status/1570115228104368128

Os dados são obtidos considerando os valores abaixo para Bolsonaro e Lula.

As ponderações de cada faixa de renda são geradas uniformemente tal que a soma seja exatamente 1.

Ou seja, o gráfico acima denota todas as possibilidades de ponderações.

Sep 14, 2022 • 11 tweets • 2 min read

A maioria disse 95%, o que está tecnicamente errado.

Uma estimativa é o valor numerico de um estimador, então vamos considerar o estimador para a analise teórica.

Por definição, um IC exato com confiança γ é definido por

P( I(X,γ) ≤ θ ≤ L(X,γ) ) = γ
+

https://twitter.com/agpatriota/status/1569752496981041160

Considerei a igualdade acima para facilitar a discussão, mas a definição é mais complexa e considera maior igual.

A condição natural é que
I(X,γ) ≤ L(X,γ)

Aqui X representa a amostra aleatória. É comum utilizarmos um estimador para θ na construção do IC, assim um IC +

Sep 13, 2022 • 4 tweets • 1 min read

Nas pesquisas por telefone, Lula e Bolsonaro empatam.

Nas pesquisas presenciais, Lula está a 12 pontos percentuais a frente de Bolsonaro.

Os resultados para o Ciro são similares independentemente da metodologia.

Sinal de que +

a metodologia produz viés em candidatos específicos. Minha leitura é que há taxa de não-resposta em pesquisas presenciais que poderiam favorecer Bolsonaro (por pressão social/mídia recente) e vieses de cobertura em pesquisas telefônicas que poderiam favorecer Lula (minha leitura)

Sep 8, 2022 • 4 tweets • 1 min read

Gráficos bonitos e aparentemente interessantes. Resta saber qual é a base de dados e quais foram as métricas empregadas. É bom entender bem as limitações dos métodos para não fazer inferências equivocadas.

https://twitter.com/Pedro_Barciela/status/1567635148941791232

Se a base de dados for limitada a um universo específico, então as inferências devem ser limitadas ao mesmo universo.

Sep 8, 2022 • 4 tweets • 1 min read

Atualização das intenções de votos após 3 semanas do inicio das propagandas políticas.

Pesquisas presenciais e por telefone misturadas 👇

Pesquisas presenciais 👇

Sep 6, 2022 • 17 tweets • 5 min read

Alguns analistas políticos usam as "margens de erro máximas" divulgadas pelas empresas que fazem pesquisas eleitorias para fazer análises politicas.

Esses valores são calculados via Amostragem Aleatória simples (AAS), mas a amostragem é por conglomerados.

Qual é o problema?

De acordo com as simulações que fiz, as estimativas obtidas sob amostragem por conglomerados (AC2S) tem resultados similares aos de AAS quando as proporções populacionais em cada conclomerado forem similares.

Se forem diferentes +

Jul 1, 2022 • 7 tweets • 2 min read

Muito interessante a pergunta!

Vou responder como eu penso.

A probabilidade é um objeto matemático definido por meio da teoria de conjuntos. Ela é como a nossa linguagem e serve para descrever eventos incertos. Portanto, a natureza da probabilidade é abstrata criada pelo homem

Um evento é incerto quando não temos certeza sobre a sua ocorrência. Um evento é traduzido para um conjunto o qual é listado em uma sigma-álgebra.

A medida de probabilidade é uma função matemática bem definida dentro da teoria de conjuntos.

Share this page!

Enter URL or ID to Unroll