95% que bruxaria é essa? Quem trabalha com estatistica está acostuma com esse número. Ele usualmente é usado na construção de intervalos como uma forma de representar a incerteza de uma estimativa.

Segue um fio sobre intervalos de confiança e credibilidade.
Quando se estima algo, é importante reportar a incerteza dessa estimativa. O método usado para estimar, q chamamos o método de inferência, vai dizer como a incerteza deve der representada e como chama la.
Sob a ótica frequentista, os parâmetros são estimados como funcao dos dados. E os dados são representados por um modelo estatístico chamado de verosimilhança. Alguns estimadores tem propriedades muito importantes que facilitam o calculo de intervalos e valores p.
Se queremos por exemplo estimar uma media, recorremos a um teorema q sob algumas suposicoes, nos diz que a distribuicao da media amostral é a distribuição Normal. Assim podemos calcular um intervalo de confianca p media usando a fórmula

M +- Z × sqrt( dp / n ),

onde
M é a media dos dados;

Z é um valor da Normal padrao q traduz a confianca desejada. Se a confianca é de 95%, entao Z = 1.96

dp é o desvio padrao dos dados;

n é o tamanho da amostra;

sqrt(x) é a raiz quadrada de x.
O termo Z × sqrt ( dp / n ) pode ser visto como a *margem de erro*. Termo bastante usado, e ele nos diz de verts forma o tamanho do intervalo. Quanto menor a margem de erro, maior a nossa certeza a respeito da estimativa da média.
Então aqui, o 95% representa a confiança na estimativa, que deve ser acompanhada de uma medida de incerteza, sejs o intervalo seja a margem de erro.
Para outros parâmetros, diferentes da média, são necessarios calculos adequados para se obter o intervalo de confianca. Mas ele vai surgir a partir da funcao de verosimilhança, q é a funcao q inclui a distribuicao de probabilidade assumida para os dados.
Qdo o estimador é muito complexo, ou é dificil de calcular os intervalo de forma analitica. Um metodo interesssante para calcular esse intervalo é o método de Bootstrap, nao vou entrar nos detalhes aqui, mas com ele consegue-se obter intervalos de confianca aproximados.
Sob a otica bayesiana, os parametros de interesse sao atribuidos distribuicoes de probabilidades que representam o nosso conhecimento previo a respeito, as chamadas distribuicao a priori.
Combinando a priori com a verosimilhança (a mesma usada sob o ponto de vista frequentista) usando o teorema de Bayes temos a distribuicao a posteriori, que é a distribuicao dos parametros que representa nosso conhecimentonprevio atualizado com a informação contida nos dados.
De posse da distribuicao a posteriori, podemos calcular intervalos q representem nossa incerteza. Esses intervalos tem outro nome, sao chamados intervalos de credibilidade. Existem varias formas de calcular um intervalo de credibilidade.
O intervalo mais comum é o simétrico que define os pontos do intervalo que exclui 2.5% de um lado da distribuicao e 2.5% do outro, mantendo dentro do intervalo 95%. Assim dizemos que o parametro está contido no intervalo com probabilidade 0.95.
Existem outras formas de cálculo do intervalo, como o HPD, mas o simetrico é o mais comum.

O ponto aqui é q de posse da distribuicao a posteriori, toda inferencia é feita a partir dessa distribuicao. O intervalo de credibilidade é uma especie de resumo da incerteza representada.
Em um modelo com vários parâmetros derivamos a distribuicao de probabilidade conjunta desses parâmetros, podemos combinar esses parametros e derivar a disteibuicso a posteriori dessa combinacao de parametros. E é aí que queria chegar.
Um exemplo atual é o Rt. Um modelo matematico é assumido para a dinâmica da epidemia e um modelo estatístico é assumido para os casos, o Rt é funcao de varios parâmetros que, apos o uso de procedimentos computacionais, deriva-se a distribuicao a posteriori do Rt.
De posse dessa distribuicao, usa-se uma estimativa pontual que eu assumo ser a media a posteriori (mas poderia ser a media ou a moda por exemplo) e pode se calcular um intervalo de credibilidade de 95% para Rt.
Alem do intervalo, é possível calcular medidas espertas como por exemplo P( Rt > 1 | dados ), por exemplo se essa probabilidade for alta temos um cenário epidemico. Outra forma é olhar se o limite inferior do intervalo de credibilidade de 95% maior q 1, entao P( Rt > 1) > 0.95.
Enfim, sempre que surgir uma estimativa para qq coisa. Procure saber qual a incerteza associada, qual o intervalo. Pois uma incerteza muito grande pode invalidar conclusoes a respeito da estimativa em questao.
Tentei ser menos tecnico mas acho q falhei bravamente. Sorry.

@luizacaires3 @anarina @mellziland @msoares @Capyvara @schrarstzhaupt
Adicionando ao fio a ótima intervenção do Isaac

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Leo Bastos 🌻

Leo Bastos 🌻 Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @leosbastos

1 Dec
Pessoal, não existe isso de 95% de exatidão. Não inventem conceitos estatísticos. Image
A estimativa do grupo do Imperial é basesda em um modelo bayesiano, e portanto eles tem a distribuição de probabilidade a posteriori do Rt. E com ela eles podem fazer o que quiserem como calcular a P(Rt > ) ou o intervalo de credibilidade (a, b) tal que P(a < Rt < b) = 0.95.
Essa merda de exatidão de 95% não existe, s nao ser que esse conceito foi inventado nesse periodo q estou em licença paternidade e de repente a estatística resolveu sofrer uma revolução com a chegada de novos conceitos...
Read 4 tweets
17 Nov
Em 2020, casos e óbitos por SRAG são devidos a COVID-19?

A grande maioria dos óbitos e hospitalizacoes são sim!

Mas um caso de SRAG por ser outra coisa né? Sim pode, existem vários outras doenças que podem causar os sintomas que definem a SRAG, a influenza é a principal delas.
Segue a série da incidência de hospitalizados de SRAG do país todo nesse ano, 2020 (é um print do infogripe). O país todo está com classificado como período de atividade muita alta qdo comparado com o histórico. A série de baixo tem níveis de cores e nota se apenas o vermelho.
Agora segue a série (e mapa) da incidência de hospitalizacoes por SRAG por COVID em 2020 (ignorem o final da série pois o modelo de nowcasting não funciona bem nesse caso, ainda não resolvi isso). Percebam como a série de SRAG-COVID é similar a de SRAG
Read 12 tweets
25 Oct
Apesar de trabalharmos com esse dado há muito tempo, há um bom tempo eu não coloco as hospitalizações e óbitos por SRAG-COVID juntos. Aqui eu excluí as ultimas 5 semanas, pois além do atraso de digitação usual, têm os atrasos de laboratorio e de atualização do registro no SIVEP.
Percebam que as epidemias são bem distintas no espaço, e no tempo. Sul e Centro Oeste estão bem mais a direita, enquanto Norte e Nordeste tudo aconteceu nas primeiras semanas de epidemia no Brasil. O Sudeste teve um aumento rápido, e uma queda bem lenta.
Esse dado não é de SRAG, e sim SRAG-COVID, i.e. casos de SRAG com resultado positivo para SARS-CoV-2. As hopitalizações e óbitos estão definidos por data de primeiros sintomas, o que nos permite fazer a razão de óbitos por hospitalizados.
Read 7 tweets
24 Sep
Um caso interessante esse de Fortaleza, onde junto dados de dengue e hospitalizações por SRAG com COVID confirmada (SRAG-COVID). Segue o fio 1/n Image
A fugura mostra dados até a semana 29 para excluir problemas com atrasos de notificação tanto dengue quanto SRAG-COVID. Em vermelho tem-se a mediana e os quantis 10 e 90% de casos notificados de dengue de 2010 a 2019, para reforçar a heterogeneidade nas séries.
Para 2020, temos notificações de dengue (em verde) e SRAG-COVID (azul). Percebam que a série de dengue estava bem alta até a semana 11, quando de repente cai. Será que eu deveria pensar que a COVID-19 protege pra dengue? Nope.
Read 11 tweets
14 Jul
Dados de síndrome respiratória aguda grave (SRAG) no estado do Rio de Janeiro. Deixo aqui um parabens aos envolvidos (ironia!), estamos revertendo a tendência de queda.
Já me perguntaram o que eu achava do relaxamento do isolamento no Rio, e eu não tive dúvidas na resposta, os casos vão voltar a crescer. Não teve nenhuma cura mágica, por que iria continuar a cair se o comportamento das pessoas só mudou pra pior? Por que?
Notem q não são os casos confirmados de covid-19, são as notificações de SRAG que estão voltando a subir. Os casos de COVID-19 e depois os óbitos virão na sequência. Ao corrigir o atraso de notificação, uma mudança no padrão dos casos com pouco atraso é captada e "inflacionada"
Read 8 tweets
1 Jul
Quem assistiu algum webinar meu recente certamente viu uma figura de nowcasting para os casos de SRAG em MG usando dados de 9/6. Bem joguei os dados mais recentes por cima e acho que nosso modelo nao tá tão mal...
Webinário na UFMG: Hospitalizações por SRAG como proxy para casos graves de Covid-19 no Brasil

ABE e COVID-19 (#5): Ações e Desafios



ABE: Associação Brasielira de Estatística
Read 5 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!