95% que bruxaria é essa? Quem trabalha com estatistica está acostuma com esse número. Ele usualmente é usado na construção de intervalos como uma forma de representar a incerteza de uma estimativa.
Segue um fio sobre intervalos de confiança e credibilidade.
Quando se estima algo, é importante reportar a incerteza dessa estimativa. O método usado para estimar, q chamamos o método de inferência, vai dizer como a incerteza deve der representada e como chama la.
Sob a ótica frequentista, os parâmetros são estimados como funcao dos dados. E os dados são representados por um modelo estatístico chamado de verosimilhança. Alguns estimadores tem propriedades muito importantes que facilitam o calculo de intervalos e valores p.
Se queremos por exemplo estimar uma media, recorremos a um teorema q sob algumas suposicoes, nos diz que a distribuicao da media amostral é a distribuição Normal. Assim podemos calcular um intervalo de confianca p media usando a fórmula
M +- Z × sqrt( dp / n ),
onde
M é a media dos dados;
Z é um valor da Normal padrao q traduz a confianca desejada. Se a confianca é de 95%, entao Z = 1.96
dp é o desvio padrao dos dados;
n é o tamanho da amostra;
sqrt(x) é a raiz quadrada de x.
O termo Z × sqrt ( dp / n ) pode ser visto como a *margem de erro*. Termo bastante usado, e ele nos diz de verts forma o tamanho do intervalo. Quanto menor a margem de erro, maior a nossa certeza a respeito da estimativa da média.
Então aqui, o 95% representa a confiança na estimativa, que deve ser acompanhada de uma medida de incerteza, sejs o intervalo seja a margem de erro.
Para outros parâmetros, diferentes da média, são necessarios calculos adequados para se obter o intervalo de confianca. Mas ele vai surgir a partir da funcao de verosimilhança, q é a funcao q inclui a distribuicao de probabilidade assumida para os dados.
Qdo o estimador é muito complexo, ou é dificil de calcular os intervalo de forma analitica. Um metodo interesssante para calcular esse intervalo é o método de Bootstrap, nao vou entrar nos detalhes aqui, mas com ele consegue-se obter intervalos de confianca aproximados.
Sob a otica bayesiana, os parametros de interesse sao atribuidos distribuicoes de probabilidades que representam o nosso conhecimento previo a respeito, as chamadas distribuicao a priori.
Combinando a priori com a verosimilhança (a mesma usada sob o ponto de vista frequentista) usando o teorema de Bayes temos a distribuicao a posteriori, que é a distribuicao dos parametros que representa nosso conhecimentonprevio atualizado com a informação contida nos dados.
De posse da distribuicao a posteriori, podemos calcular intervalos q representem nossa incerteza. Esses intervalos tem outro nome, sao chamados intervalos de credibilidade. Existem varias formas de calcular um intervalo de credibilidade.
O intervalo mais comum é o simétrico que define os pontos do intervalo que exclui 2.5% de um lado da distribuicao e 2.5% do outro, mantendo dentro do intervalo 95%. Assim dizemos que o parametro está contido no intervalo com probabilidade 0.95.
Existem outras formas de cálculo do intervalo, como o HPD, mas o simetrico é o mais comum.
O ponto aqui é q de posse da distribuicao a posteriori, toda inferencia é feita a partir dessa distribuicao. O intervalo de credibilidade é uma especie de resumo da incerteza representada.
Em um modelo com vários parâmetros derivamos a distribuicao de probabilidade conjunta desses parâmetros, podemos combinar esses parametros e derivar a disteibuicso a posteriori dessa combinacao de parametros. E é aí que queria chegar.
Um exemplo atual é o Rt. Um modelo matematico é assumido para a dinâmica da epidemia e um modelo estatístico é assumido para os casos, o Rt é funcao de varios parâmetros que, apos o uso de procedimentos computacionais, deriva-se a distribuicao a posteriori do Rt.
De posse dessa distribuicao, usa-se uma estimativa pontual que eu assumo ser a media a posteriori (mas poderia ser a media ou a moda por exemplo) e pode se calcular um intervalo de credibilidade de 95% para Rt.
Alem do intervalo, é possível calcular medidas espertas como por exemplo P( Rt > 1 | dados ), por exemplo se essa probabilidade for alta temos um cenário epidemico. Outra forma é olhar se o limite inferior do intervalo de credibilidade de 95% maior q 1, entao P( Rt > 1) > 0.95.
Enfim, sempre que surgir uma estimativa para qq coisa. Procure saber qual a incerteza associada, qual o intervalo. Pois uma incerteza muito grande pode invalidar conclusoes a respeito da estimativa em questao.
Tentei ser menos tecnico mas acho q falhei bravamente. Sorry.
Pessoal, não existe isso de 95% de exatidão. Não inventem conceitos estatísticos.
A estimativa do grupo do Imperial é basesda em um modelo bayesiano, e portanto eles tem a distribuição de probabilidade a posteriori do Rt. E com ela eles podem fazer o que quiserem como calcular a P(Rt > ) ou o intervalo de credibilidade (a, b) tal que P(a < Rt < b) = 0.95.
Essa merda de exatidão de 95% não existe, s nao ser que esse conceito foi inventado nesse periodo q estou em licença paternidade e de repente a estatística resolveu sofrer uma revolução com a chegada de novos conceitos...
Em 2020, casos e óbitos por SRAG são devidos a COVID-19?
A grande maioria dos óbitos e hospitalizacoes são sim!
Mas um caso de SRAG por ser outra coisa né? Sim pode, existem vários outras doenças que podem causar os sintomas que definem a SRAG, a influenza é a principal delas.
Segue a série da incidência de hospitalizados de SRAG do país todo nesse ano, 2020 (é um print do infogripe). O país todo está com classificado como período de atividade muita alta qdo comparado com o histórico. A série de baixo tem níveis de cores e nota se apenas o vermelho.
Agora segue a série (e mapa) da incidência de hospitalizacoes por SRAG por COVID em 2020 (ignorem o final da série pois o modelo de nowcasting não funciona bem nesse caso, ainda não resolvi isso). Percebam como a série de SRAG-COVID é similar a de SRAG
Apesar de trabalharmos com esse dado há muito tempo, há um bom tempo eu não coloco as hospitalizações e óbitos por SRAG-COVID juntos. Aqui eu excluí as ultimas 5 semanas, pois além do atraso de digitação usual, têm os atrasos de laboratorio e de atualização do registro no SIVEP.
Percebam que as epidemias são bem distintas no espaço, e no tempo. Sul e Centro Oeste estão bem mais a direita, enquanto Norte e Nordeste tudo aconteceu nas primeiras semanas de epidemia no Brasil. O Sudeste teve um aumento rápido, e uma queda bem lenta.
Esse dado não é de SRAG, e sim SRAG-COVID, i.e. casos de SRAG com resultado positivo para SARS-CoV-2. As hopitalizações e óbitos estão definidos por data de primeiros sintomas, o que nos permite fazer a razão de óbitos por hospitalizados.
Um caso interessante esse de Fortaleza, onde junto dados de dengue e hospitalizações por SRAG com COVID confirmada (SRAG-COVID). Segue o fio 1/n
A fugura mostra dados até a semana 29 para excluir problemas com atrasos de notificação tanto dengue quanto SRAG-COVID. Em vermelho tem-se a mediana e os quantis 10 e 90% de casos notificados de dengue de 2010 a 2019, para reforçar a heterogeneidade nas séries.
Para 2020, temos notificações de dengue (em verde) e SRAG-COVID (azul). Percebam que a série de dengue estava bem alta até a semana 11, quando de repente cai. Será que eu deveria pensar que a COVID-19 protege pra dengue? Nope.
Dados de síndrome respiratória aguda grave (SRAG) no estado do Rio de Janeiro. Deixo aqui um parabens aos envolvidos (ironia!), estamos revertendo a tendência de queda.
Já me perguntaram o que eu achava do relaxamento do isolamento no Rio, e eu não tive dúvidas na resposta, os casos vão voltar a crescer. Não teve nenhuma cura mágica, por que iria continuar a cair se o comportamento das pessoas só mudou pra pior? Por que?
Notem q não são os casos confirmados de covid-19, são as notificações de SRAG que estão voltando a subir. Os casos de COVID-19 e depois os óbitos virão na sequência. Ao corrigir o atraso de notificação, uma mudança no padrão dos casos com pouco atraso é captada e "inflacionada"
Quem assistiu algum webinar meu recente certamente viu uma figura de nowcasting para os casos de SRAG em MG usando dados de 9/6. Bem joguei os dados mais recentes por cima e acho que nosso modelo nao tá tão mal...
Webinário na UFMG: Hospitalizações por SRAG como proxy para casos graves de Covid-19 no Brasil