E se os dados forem heterocedásticos?

O termo homocedasticidade ficou conhecido com o advento dos atuais requisitos de validação de métodos analíticos, nos quais torna-se necessário verificar e comprovar a homocedasticidade dos dados (dentro dos testes de linearidade).

A ideia é garantir que no intervalo de concentração da faixa de trabalho, os diferentes níveis de concentração apresentam a mesma variância (HOMO= mesma, CEDASTICIDADE= qualidade de cedástico – relativo a variância). Se comprovada a homocedasticidade podemos adotar o modelo de mínimos múltiplos quadrados ordinários (MMQO) para o ajuste dos dados, sendo este modelo mais simples para obtenção de dados de regressão e demais parâmetros da linearidade.

Para verificar e comprovar a homocedasticidade torna-se necessário aplicar testes estatísticos, como:

  • Teste de Cochran (questionável devido a quantidade reduzida de replicatas – O teste de Cochran compara as variâncias de cada ponto da curva de calibração, mas, em geral, temos poucas réplicas de cada ponto para calcularmos as variâncias, portanto o teste de Cochran pode não permitir uma avaliação apropriada para a homocedasticidade no contexto da linearidade
  • Teste Breuch-Pagan (baseado no teste multiplicador de Lagrange) – mais robusto

  • Teste de Goldfeld-Quandt (entre as limitações deste teste está a exigência de que a amostra seja relativamente grande).
  • Teste de Brown-Forsythe (também utilizado como Levene) é utilizado para o teste de igualdade de variâncias, porém em certos casos utilizamos para testar a homoscedasticidade dos resíduos no caso de uma variável explicativa. Este teste considerara a mediana ou 10 % da tri-média (mais robustas), como alternativa para a média no cálculo dos desvios absolutos, sendo menos sensível a desvios de normalidade. Levene propôs uma estatística para dados balanceados, que foi generalizada posteriormente para dados desbalanceados à partir de uma ANOVA (1 fator) entre os grupos, em que cada observação foi substituída pelo seu desvio absoluto da sua média do grupo.

Na execução destes testes devemos realizar a verificação de testes de hipóteses:

Vale ressaltar que a ausência de homoscedasticidade é chamada de heteroscedasticidade. Com isso, testamos as hipóteses: 

Teste de hipóteses avaliada com 95% de intervalo de confiança (nível de significância de 5%).

Hipótese Nula: H0

Hipótese H1 (alternativa): H1 

Se o teste estatístico confirmar que não existe evidência para rejeitar a H0, consideramos os dados homocedásticos e continuamos a executar verificações para confirmação (gráfico de resíduos versus valores ajustados, testes de normalidade de resíduos – por exemplo: Kolmogorov-SmirnovAnderson-DarlingShapiro-Wilk e Ryan-Joiner., gráfico de normalidade).

Exemplo de gráficos de resíduos.
Gráfico de resíduos com evidências de homocedasticidade e de heterocedasticidade.
Histograma e gráfico de normalidade para confirmação de homocedasticidade

Mas e se verificarmos que os dados são HETEROCEDÁSTICOS, como devemos proceder?

Primeiro, esclarecendo, na validação analítica desejamos os dados sejam homocedásticos pois isso significa que dentro da faixa de trabalho verificada podemos esperar que a quantificação possa ser realizada pela regressão linear convencional (isto inclui que é possível usar o método de ponto único, comum em laboratórios farmacêuticos, mas é necessário confirmar que o coeficiente linear é estatisticamente zero).

Se a homocedasticidade não for válida podemos listar algumas consequências:

  • Os erros padrões dos estimadores (coeficientes angular e linear), obtidos pelo Método dos Mínimos Quadrados, são incorretos e portanto a inferência estatística não é válida.
  • Não podemos mais dizer que os Estimadores de Mínimos Quadrados são os melhores estimadores de mínima variância para o coeficiente angular, embora ainda possam ser não viciados.

Assim, se a hipótese de homocedasticidade for rejeitada, para contornar a falha na suposição do modelo de regressão linear, devemos empregar o Modelo de Mínimos Múltiplos Quadrados Ponderados para determinar os estimadores (coeficientes de regressão). A ponderação é necessária pois a heterocedasticidade significa que temos “pesos” diferentes influenciando diferentemente os erros em níveis de concentração dentro da faixa linear do método.

Gráfico evidenciando níveis crescentes de erros para cada nível de concentração, ponderados para atingir a linearidade.

Para obter os estimadores de mínimos quadrados ponderados, no qual devemos considerar que cada uma das n observações podem não gerar a mesma variabilidade nos resíduos, determinamos o peso que cada observação terá sobre os estimadores, utilizamos a ideia de que o peso atribuído a uma observação é inversamente proporcional a variância do resíduo relacionado a ela, em outras palavras, consideramos que as observações que causam maior variabilidade nos resíduos têm menor confiabilidade em termos de inferência para os parâmetros da função de regressão. De maneira análoga, as observações com menor variância são mais confiáveis. Na prática, temos diversas fomas de considerarmos os pesos, caso tenhamos informação de que a variância é diretamente proporcional à variável independente (X), podemos tomar como peso 1/x. 

Assim, no caso de réplicas ou quase réplicas o peso de cada ponto é calculado como o inverso da variância (em geral usamos a variância amostral).

Desta forma, no Modelo de Mínimos Quadrados Ponderados o fator de ponderação deve ser considerado no cálculo dos coeficientes do modelo (exemplo abaixo para o coeficiente angular) e para os demais testes (exemplo para parâmetros de tabela ANOVA).

Cálculo para o coeficiente angular de regressão no MMQP.
Tabela com a descritiva dos cálculos de ANOVA no caso de MMQP.

Algumas observações importantes sobre MMQP

A regressão ponderada é um método que pode ser usado quando a suposição de mínimos quadrados da variância da constante nos resíduos é violada. Com o peso correto, este procedimento minimiza a soma dos resíduos quadrados ponderados para produzir resíduos padronizados com uma variância constante (homoscedasticidade). A regressão ponderada não é uma solução apropriada quando a heteroscedasticidade é causada por uma variável omitida (isto é, quando os dados dependem de outro fator não identificado no modelo).

Como escolher o peso a ser usado ?

Determinar o peso correto a ser usado pode ser uma tarefa desafiadora. O peso ideal é o valor inverso da variância do erro ( ver fórmula descrita acima). Entretanto, isso geralmente não é fácil de ser de fato calculado, sendo as vezes necessário usar outras estratégias. Algumas opções para determinar os pesos:

  • O inverso de um preditor ou preditor ao quadrado se a variância é proporcional a um preditor. Use a experiência combinada com a tentativa e erro para determinar o que funciona.
  • Valores baseados em teoria, literatura ou pesquisa anterior.

Normalmente observações com pequenas variâncias devem ter pesos relativamente grandes e observações com grandes variâncias devem ter pesos relativamente pequenos.

Exemplo:

Suponha que seu modelo de regressão prediz o número anual de acidentes de trânsito em diferentes cidades. Como as cidades mais populosas tendem a ter mais acidentes, os resíduos para cidades maiores também tendem a ser maiores. Uma abordagem para resolver isso é usar o valor inverso da população de cada cidade para determinar o peso.

Em softwares estatísticos, como o Minitab, é possível obter o gráfico de linhas ajustado para regressão linear ponderada. Neste caso, além das variáveis x e y em diferentes colunas, torna-se necessário também organizar uma terceira coluna, com valores de pesos. O gráfico a ser usado é o de dispersão, porém Y ajustado leva em consideração os valores de peso de ponderação.

No Action Stat também é possível realizar o ajuste pelo modelo de regressão ponderado. A Figura abaixo apresenta um comparativo de regressão realizada sem ponderação, mas evidenciando a heterocedasticidade e o gráfico traçado com os pesos ajustados, no modelo de regressão com ponderação. No Action Stat o peso é efetivamente calculado como inverso da variância em cada nível de concentração.

Gráfico no qual se percebe que em concentrações maiores a variância é maior.
Gráfico obtido ajustando os dados de acordo com a regressão ponderada, utilizando pesos e corrigindo as variâncias.

Para um exemplo completo da regressão ponderada acesse: 1.11.2 – Estimação dos parâmetros do modelo – Análise de Regressão | Portal Action

Gostou do artigo? Compartilhe citando a fonte e autoria!

Precisa de ajuda ou quer saber mais? Entre em contato: temos cursos online em plataforma EAD, com disponibilidade contínua e imediata e cursos personalizados.

Siga a Cromvallab nas redes sociais!

Escreva cromvallab@gmail.com

Abraços!

Dra. Glaucia Maria F. Pinto

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google

Você está comentando utilizando sua conta Google. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s

%d blogueiros gostam disto: