Thursday 10 August 2017

Covarias Altamente Correlacionadas Forex


Correlatos de moeda Cada célula nas tabelas a seguir contém o coeficiente de correlação para dois pares de moedas (correlações de moeda) que são nomeados nos campos correspondentes do painel superior e esquerdo. O coeficiente de correlação mede quão estreitamente dois pares de moeda se movem juntos. Se ambos os pares se movem para cima e para baixo em uníssono perfeito, então o coeficiente de correlação é 1. Se o movimento de um par não diz nada sobre o movimento do outro par, então há uma correlação zero entre esses pares. Se dois pares se movem em direções exatamente opostas, seu coeficiente de correlação é -1. As correlações também são divididas em quatro grupos de acordo com sua força. Para facilitar a visualização, todas as correlações na tabela a seguir são coloridas para mostrar sua força, conforme observado abaixo: Fraco (Branco): o valor absoluto do coeficiente de correlação não excede 0,3 (ou seja, pode ser de -0,3 a 0,3). Médio (Cinza): o valor absoluto do coeficiente é maior que 0,3 mas inferior a 0,5. Forte (Preto): o valor absoluto do coeficiente é maior que 0,5 mas menor do que 0,8. Alto (Vermelho): o valor absoluto do coeficiente de correlação é igual ou superior a 0,8. Os coeficientes de correlação são calculados com base nos preços de fechamento diários observados nos últimos 40 dias de negociação (curto prazo) e nos últimos 120 dias de negociação (prazo mais longo). Estes dois períodos foram escolhidos entre os duzentos possíveis períodos de correlação com base em quão bem os coeficientes de correlação correspondem às flutuações diárias dos preços. Como você pode ver no simulador de correlação (Nota: Esta calculadora exige que você tenha o Flash instalado e o Javascript ativado no seu navegador), a correlação real geralmente divergirá mais forte do valor alvo quando é calculado por períodos de tempo mais curtos. Isso torna importante verificar as correlações de curto prazo contra as correlações de longo prazo, que é feito na tabela REL abaixo. A tabela REL (de quotreliabilityquot) compara as correlações de curto prazo e de longo prazo e mostra a média de ambos os coeficientes quando eles permanecem próximos para ambos os períodos de tempo. Acredita-se que, se os coeficientes de correlação a curto e a longo prazo concordarem, a correlação é mais confiável - mais provável que persista no futuro próximo. Você pode verificar como as correlações diárias a curto prazo e a longo prazo mudam ao longo do tempo para os pares de moeda mais comumente negociados na página de correlação de rastreamento (Nota: O tamanho desta página é de 1,3 Mbs e requer que você tenha Flash instalado e Javascript ativado em seu navegador). A correlação também pode ser definida como o grau de similaridade (similaridade direta quando a correlação é similaridade inversa positiva quando a correlação é negativa) que você pode esperar existir entre padrões de gráfico técnico (por exemplo, linhas de tendência, padrões de preços, candelabros e ondas de Elliott) visíveis em duas moedas Gráficos de pares. Por exemplo, você pode esperar ver a imagem espelhada quase exata da linha de tendência que aparece no gráfico diário do EURUSD quando você olha o mesmo gráfico de escala de tempo do USDCHF (porque a correlação negativa desses pares é tão alta). Os coeficientes de correlação diários mostrados aqui, portanto, medem a correspondência entre padrões intermediários (últimos 120 dias) e menores (últimos 40 dias) visíveis nos gráficos diários dos pares de moedas para os quais são calculados. Esta informação será mais útil para os comerciantes de posições (mantendo as posições abertas de um dia a alguns dias) que dependem principalmente dos estudos diários de gráficos. Se você deseja calcular as correlações para outros períodos de tempo, você pode fazê-lo no Excel, conforme descrito na parte inferior desta página. Nota de Tabela de Correlação de Moedas. É melhor diversificar aqueles pares de moedas cuja correlação é colorida em branco ou cinza (com mais cautela) na tabela REL. Você pode reduzir ainda mais a lista de candidatos para a diversificação, excluindo os pares que passaram o menor tempo a ser debilmente correlacionados durante os últimos 100 dias de negociação - como é mostrado na página de correlações de trânsito (soma das porcentagens de tempo que o 40- As correlações de dia e 120 dias permaneceram fracas. Por favor note: O tamanho desta página é de 1,3 Mbs e requer que você tenha o Flash instalado e o Javascript ativado em seu navegador). Se a correlação for colorida em Vermelho para dois pares na tabela REL, você pode usar isso para selecionar somente a negociação desse par que ofereça a entrada com a maior relação entre recompensa e risco entre os dois. Você também pode usar essas informações para esclarecer a imagem técnica (por exemplo, contagens de onda de Elliott) do par de moedas que você troca, observando o gráfico do (s) outro (s) par de moedas, com o qual está altamente correlacionado. Tutorial de correlações do Excel Você pode calcular correlações individuais para dois pares de moedas e para qualquer período de tempo passando por essas etapas: Selecione os pares de moedas que você deseja analisar. Exporte os dados de preço para cada um desses pares a partir de seus gráficos forex (por exemplo, Intellicharts) para um arquivo em seu computador (o formato usual para exportação de dados é CSV). Importe cada arquivo no Excel, indo para DatagtImport External DatagtImport Data e apontando para ele. Você pode precisar importar os números como texto e, em seguida, substituir os pontos por vírgulas para que o Excel possa trabalhar com os preços como números. Certifique-se de que as datas nas séries temporais importadas concordem para cada linha (você pode ignorar esta etapa se estiver trabalhando com apenas um preço). Exclua as colunas para Abrir, Alto e Baixo. Altere os nomes das colunas com os preços de fechamento para os nomes dos pares de moeda aos quais eles pertencem. Use a função CORREL para calcular a correlação. Esta função funciona em dois arrays, que serão os intervalos de mesmo comprimento dos preços de fechamento dos dois pares. Basta digitar em uma das células vazias quotcorrel (então, pressione o botão quotfxquot ao lado da barra de fórmulas e selecione os dois intervalos. A fórmula resultante ficará assim - CORREL (A1: A40B1: B40) e calculará o valor da Coeficiente de correlação entre os pares para o período de tempo escolhido. Neste exemplo, serão 40 horas, dias ou semanas dependendo da escala de tempo dos gráficos em análise. Para calcular a matriz de correlação de qualquer número de pares, repita os passos 1 a 1 acima 3 para cada par. Corte a tabela inteira para que os nomes dos pares de moedas estejam na primeira linha e os preços de fechamento são apenas para o período de tempo que você deseja analisar. Em vez de usar a função CORREL, vá para a análise do ToolsgtData. Selecione quotCorrelationquot na lista de ferramentas de análise. Pressione o botão ao lado do quotInput Rangequot e, em seguida, realce o conteúdo de todas as colunas. Marque a marca ao lado de quotLabels em First Rowquot. Selecione o intervalo de saída escolhendo Uma célula à direita da mesa. Pressione quotOKquot. Nota . Talvez seja necessário instalar o pacote Análise de dados a partir do CD de instalação do Office se não for carregado por padrão. Para instalá-lo, vá para ToolsgtAdd-Ins. Em seguida, selecione Análise ToolPak e pressione OK para começar a criar sua matriz de correlações cambiais. British Dental Journal 199. 457 - 461 (2005) Publicado online: 8 de outubro de 2005 doi: 10.1038sj. bdj.4812743 Problemas de correlação entre variáveis ​​explicativas em análises de regressão múltipla Na literatura odontológica YK Tu 1. M Kellett 2. V Clerehugh 3 amp. MS Gilthorpe 4 Adquirir uma compreensão dos conceitos que envolvem a colinearidade. Apreciar as indicações e os sintomas da colinearidade na regressão multivariada. Conheça as ferramentas de diagnóstico disponíveis para colinearidade. Obtenha conhecimento na avaliação da colinearidade na literatura odontológica. Saiba algumas soluções para superar o problema da colinearidade. A análise multivariada é uma metodologia estatística amplamente utilizada para investigar associações entre as variáveis ​​clínicas. No entanto, os problemas de colinearidade e multicolinearidade, que podem dar origem a resultados espúrios, no passado foram freqüentemente desconsiderados na pesquisa odontológica. Este artigo ilustra e explica os problemas que podem ser encontrados, com a esperança de aumentar a conscientização e a compreensão dessas questões, melhorando assim a qualidade das análises estatísticas realizadas na pesquisa odontológica. Três exemplos de diferentes especialidades dentárias clínicas são utilizados para demonstrar como diagnosticar o problema da colinearidade na muculolaringe em análises de regressão múltipla e para ilustrar como a colinearidade da mucosa pode causar distorção do processo de desenvolvimento do modelo. A falta de consciência desses problemas pode dar origem a resultados enganosos e interpretações errôneas. A análise multivariada é uma ferramenta útil para a pesquisa dentária, embora apenas se seus usuários compreendam completamente os pressupostos e as limitações desses métodos. Beneficiaria enormemente da odontologia baseada em evidências se os pesquisadores estivessem mais conscientes das complexidades envolvidas na regressão múltipla ao usar esses métodos e da necessidade de consulta estatística especializada no desenvolvimento do design do estudo e na seleção de metodologias estatísticas apropriadas. Introdução Introdução Métodos estatísticos multivariáveis, como regressão linear múltipla ou logística, tornaram-se amplamente utilizados para analisar dados em pesquisas dentárias. No entanto, a redução do esforço necessário para completar os cálculos, devido ao poder dos computadores modernos, não implica que a compreensão necessária dos métodos estatísticos e dos pressupostos que sustentam as análises de regressão seja reduzida de forma semelhante. Os estatísticos médicos advertiram repetidamente contra os abusos de correlação e regressão na pesquisa médica e dentária 1, 2 às vezes a correlação e a regressão simples podem dar origem a resultados espúrios se os pesquisadores não compreenderem completamente a teoria estatística subjacente. 3, 4, 5 Um problema comum no uso de regressão linear ou logística múltipla ao analisar dados clínicos é a ocorrência de variáveis ​​explicativas (covariáveis) que não são independentes, ou seja, as correlações entre covariáveis ​​não são zero. 6 A maioria dos livros didáticos enfatizam que não deve haver associações significativas entre covariáveis, pois isso dá origem ao problema conhecido como colinearidade. 6, 7, 8, 9, 10, 11 Quando há mais de duas covariáveis ​​altamente correlacionadas, isso é multicolinearidade. A colinéaridade e a multicolinearidade podem distorcer seriamente a interpretação de um modelo. O papel de cada covariável é causar maior imprecisão, como expressa através do viés dentro dos coeficientes de regressão, 11 e incerteza aumentada, conforme expresso através de erros padrão de coeficiente. 6, 7 Conseqüentemente, os coeficientes de regressão tendenciosos pela colinearidade podem causar variáveis ​​que não demonstram relação significativa com o resultado quando consideradas isoladamente para se tornarem altamente significativas em conjunto com variáveis ​​colineares, resultando em risco elevado de resultados falso-positivos (erro Tipo I). Alternativamente, os coeficientes de regressão múltipla podem não mostrar significância estatística devido a intervalos de confiança amplamente estimados de confiança, resultando em um risco elevado de resultados falso-negativos (erro de Tipo II). Por exemplo, exemplos clássicos usados ​​por muitos livros didáticos para ilustrar a multicolinealidade são onde várias variáveis ​​explicativas estão significativamente correlacionadas com a variável de resultado usando correlação ou regressão simples. Dentro de um modelo de regressão múltipla, nenhuma ou poucas das covariáveis ​​são estatisticamente significativas, porém a variância geral da variável dependente explicada pelas covariáveis ​​é alta (isto é medido por R 2). Isso ocorre porque as informações fornecidas por cada covariável se sobrepõem com outras covariáveis, devido à multicolinearidade. 12 Assim, torna-se difícil, se não impossível, distinguir entre as contribuições individuais de cada covariável para a variância do resultado. É útil usar diagramas de Venn para ilustrar os problemas de colinearidade em um modelo de regressão onde Y é regredido em X e Z (Figs 1a e 1b). Cada círculo é a variância das variáveis. A área sobreposta é a covariância entre as duas ou três variáveis. Por exemplo, b d é a covariância entre Y e Z. A regressão múltipla procura estimar a contribuição independente de X e Z para a variância de Y, ou seja, estimar a e b para X e Z, respectivamente. A Figura 1a mostra o cenário em que a correlação entre X e Z é pequena, ou seja, c e d são relativamente pequenas em comparação com a e b. A Figura 1b mostra o cenário em que a correlação entre X e Z é alta, ou seja, c e d são grandes. Embora as correlações entre Y e X e entre Y e Z permaneçam semelhantes e a variância explícita total (a, b e d) de Y por X e Z permanecem semelhantes, uma grande correlação entre X e Z torna a e b menores e Estatisticamente não significante. No entanto, um ponto importante muitas vezes esquecido é que, mesmo quando os coeficientes de regressão são estatisticamente significativos, colinearidade e multicolinearidade podem causar problemas sérios na interpretação dos resultados de uma análise de regressão (32 KB). Por exemplo, a relação entre o resultado e uma covariável pode ser revertida quando outra covariável é entretida no modelo. O objetivo deste artigo é fornecer uma introdução não técnica aos conceitos de colinearidade e multicolinearidade e usar vários exemplos da literatura dentária para demonstrar como diagnosticar os problemas de colinearidade e multicolinearidade na análise de regressão. Este artigo pode ser considerado como uma adição à série de mais estatísticas em odontologia nesta revista. 13, 14 Para leitores com mentes matemáticas, as explicações técnicas dos problemas de colinearidade e multicolinearidade podem ser encontradas em nosso artigo anterior 15 e livros de texto estatísticos avançados. 7, 8, 10, 11, 16 Collinearidade Considere um modelo de regressão múltipla com duas covariáveis: onde y é a variável de resultado (também conhecida como variável dependente), x 1 e x 2 são duas covariáveis ​​(também conhecidas como variáveis ​​explicativas ou independentes Variáveis), b 0 é a intercepção, e b 1 e b 2 são coeficientes de regressão para x 1 e x 2, respectivamente. Idealmente, o melhor modelo para y é que a correlação entre x 1 e x 2 é zero, no entanto ambos x 1 e x 2 estão altamente correlacionados com y. Se x 1 e x 2 estiverem altamente correlacionados entre si e a direção de sua correlação é a mesma que suas respectivas correlações com y. A colinearidade pode ser um problema. Isso ocorre porque a maior parte da contribuição de x 1 e x 2 na explicação da variação no resultado, ou na previsão de y. Sobreposições. Em seguida, torna-se difícil quantificar a contribuição individual de x 1 e x 2. Que é expresso através de coeficientes de regressão reduzidos e erros padrão inflados. 6 Quando a correlação entre x 1 e x 2 é exatamente uma, a situação é chamada de colinearidade perfeita. E uma covariável precisa ser removida do modelo de regressão para estimar uma solução. 8 Como R 2 pode sempre ser aumentado adicionando uma covariável a uma regressão linear (é por isso que um R 2 ajustado também é fornecido na saída de regressão), R 2 pode ser grande (ou seja, perto de um, pois R 2 não pode exceder um ) Quando há uma multicolinearidade séria em um modelo com muitas covariáveis, apesar de algumas covariáveis ​​demonstrar significância estatística. 7, 8, 9 Multicollinearidade Em um modelo de regressão múltipla com covariáveis ​​k (k gt2), ie: y b 0 b 1 x 1 b 2 x 2. B k x k. O problema da multicolinearidade é mais complexo e mais difícil de detectar, porque a multicolinearidade não requer necessariamente altas correlações bivariadas entre covariáveis. Por exemplo, se x 1. X 2 e x 3 são independentes, as correlações bivariadas entre cada par são zero. No entanto, se uma nova variável x 4 for derivada de x 1. X 2. E x 3. Tal que x 4 x 1 x 2 x 3. Existe uma multicolinearidade perfeita entre as quatro variáveis, uma vez que cada x i (i 1 a 4) pode ser expresso como uma combinação dos outros três como: x 3 x 4 - x 1 - x 2. Cada par de correlações entre x 4 e as três covariáveis ​​restantes podem ser relativamente modestas, mas a multicolinearidade ainda é um problema sério devido ao fato de que as informações fornecidas pelas quatro variáveis ​​como um todo estão sobrepostas. A menos que uma das quatro covariáveis ​​seja removida do modelo de regressão, o software de computador não pode prosseguir com a computação matemática para o modelo de regressão. Diagnóstico da multicolinearidade Um dos métodos de diagnóstico para a multicolinearidade é realizar regressões auxiliares, regredir uma covariável nas demais covariáveis. 7, 8 Por exemplo, x 4 é usado como resultado e é regredido em x 1. X 2. E x 3. O R 2 para esta regressão auxiliar é uma medida do grau de multicolinearidade para x 4. O fator de inflação de variância (VIF), definido como VIF 1 (1-R 2 i) em que R 2 i é o R 2 para uma covariável xi regredida nas covariáveis ​​remanescentes em uma regressão auxiliar, é o diagnóstico de regressão mais utilizado para a multicolinealidade Dentro do software estatístico padrão. 7, 8, 9, 10, 11 Outra ferramenta de diagnóstico para multicolinearidade é o índice de condição. O que é mais complicado, mas fornece informações muito semelhantes ao VIF. 8, 14 Explicações detalhadas desses diagnósticos podem ser encontradas nas referências citadas. 7, 8, 9, 10, 11 Em geral, os erros padrão dos coeficientes de regressão são inflados quando o VIF é grande (por exemplo, quando VIF gt10, a multicolinearidade geralmente é considerada um problema, embora este seja um limiar arbitrário). Em resumo, quando há mais de duas covariáveis ​​em um modelo de regressão, as correlações entre covariáveis ​​são informativas, mas não devem ser o único critério usado para avaliar se a multicolinearidade é ou não um problema. Outras ferramentas de diagnóstico, como o VIF e o índice de condição também devem ser usadas e reportadas. Além disso, mesmo quando há um problema de multicolinearidade, as covariáveis ​​colineares podem permanecer estatisticamente significativas, embora o sinal do coeficiente de regressão possa ser contrário à expectativa 8212, esta é outra indicação de problemas potenciais devido à multicolinearidade. 7, 8, 9, 10 Nas próximas seções, usamos três exemplos na pesquisa dentária para ilustrar como detectar o problema da colinearidade. Note-se que esses exemplos foram selecionados, pois exibem boa qualidade no relatório de suas análises de regressão, fornecendo informações suficientes ao leitor para avaliar se a colinearidade é ou não um problema potencial. Este não é frequentemente o caso nas publicações de pesquisa clínica atuais. Exemplo 1: Streptococos de Mutans em placa e saliva Em um estudo para investigar a associação entre a incidência de cárie e os escores de Streptococcus de Mutans (17), 17 regressões logísticas simples indicaram probabilidades aumentadas de experimentar novas cáries entre crianças com maior escore de MS de placa (Odds Ratio (OR ) 15,26, 95 Intervalo de Confiança (IC) 6,52, 38,78) e maiores pontuações de MS de saliva (OR 5,78, 95 CI 2,66, 13,12) do que crianças com níveis mais baixos de placa de MS e saliva, ou seja, crianças com maior freqüência de placa basal ou saliva Os escores de EM apresentaram maior experiência De novas cáries quando reexaminadas seis meses depois. No entanto, em um modelo de regressão logística múltipla, o escore de MS da placa ou 12,59 (95 IC 3,18, 67,08), enquanto o escore de MS da saliva OR 0,48 (95 IC 0,09, 1,95). Uma vez que ORlt1 sinaliza uma associação reversa entre os níveis de pontuação de MS na saliva e a experiência de novas cáries, isso parece sugerir que, ao ajustar as pontuações de MS de placa (e outras covariáveis), uma classificação de MS de saliva alta pode ter uma pequena (embora Não estatisticamente significativo) efeito protetor sobre a incidência de cárie. Tanto os escores de MS da placa e saliva foram positivamente associados com a incidência de cárie em modelos de regressão logística separados, ou quando avaliados usando o teste de qui-quadrado. No entanto, o modelo de regressão logística múltipla pode sofrer colinearidade entre as duas pontuações da EM e a mudança na direção da associação entre a incidência de cárie e os escores de MS da saliva do modelo de regressão logistica simples para múltiplo pode ser nada mais do que um sintoma de colinearidade . A associação estatística pode ser verificada através da realização de um teste de qui-quadrado para as duas pontuações de MS. Usando o pacote estatístico R (versão 2.0.0, grupo principal de desenvolvimento R, Viena, Áustria 2004) para realizar um teste de Qui-quadrado na Tabela 2 no artigo original, a associação entre as duas pontuações MS é altamente significativa (2 62,4 com Um grau de liberdade, P lt0,0001). Portanto, talvez seja mais apropriado considerar apenas os escores de MS da placa dentro do modelo de regressão. Este exemplo indica o problema na detecção de colinearidade entre variáveis ​​categóricas. Uma vez que a correlação momento-produto Pearson é apropriada para variáveis ​​contínuas, muitos pesquisadores ignoram que colinearidade e multicolinearidade podem surgir quando a associação entre variáveis ​​categóricas é forte. Métodos estatísticos apropriados, como o teste de qui-quadrado, devem ser usados ​​para detectar a associação entre variáveis ​​categóricas. Exemplo dois: Número de dentes faltantes na linha de base e subseqüente perda dentária Alterações na direção da associação entre variável dependente e variável explicativa de regressão simples a múltipla é um sintoma comum de colinearidade. Em um estudo prospectivo para investigar a relação entre fatores de risco potenciais e perda de dente subsequente, 18 correlações bivariadas mostraram que a perda dentária no período de 20 anos (entre 1970 e 1990) está correlacionada positivamente com: o índice de perda óssea marginal (MBL) em 1970 (r 0,49 P lt0,001) idade em 1970 (r 0,21 P lt0,001) Índice Russells em 1970 (r 0,46 P lt0,001) e o número de dentes faltantes em 1970 (r 0,08 P 0,038). No entanto, a regressão múltipla por etapas mostrou que os coeficientes de regressão para a idade (-0,039 P 0,021) eo número de dentes faltantes (-0,094, P 0,003) foram negativos após o ajuste do índice MBL, índice Russells e outras variáveis ​​basais. É evidente que os fatores de risco de linha de base medidos em 1970 estão altamente correlacionados, pois são manifestações diferentes da mesma doença subjacente (periodontal) em cada paciente. Portanto, a interpretação das associações negativas inesperadas do modelo de regressão múltipla precisa ser feita com extrema cautela. Isso também indica que, embora as associações entre o resultado e as variáveis ​​explicativas sejam revertidas devido à colinearidade, os valores de P ainda podem ser pequenos e, portanto, altamente significativos. Exemplo três: preenchimento ósseo horizontal e profundidade de bolso, nível de anexo clínico e posição de margem gengival Em um estudo com regeneração de tecido guiada (GTR) para tratar defeitos de furca molares 19, foi realizada uma regressão linear múltipla para investigar a associação entre o resultado do tratamento, preenchimento ósseo horizontal E seis medidas de linha de base: profundidade de sondagem de bolso (PPD), nível de conexão clínica (CAL), posição de margem gengival (GMP), distância entre junção cemento-esmalte a crista alveolar (CEJ-AC), componente intrabônio vertical (VIC) e Profundidade de defeito horizontal (HDD). Os resultados da análise de regressão revelaram que os resultados do tratamento foram significativamente associados à HDD basal em ambos os grupos de tratamento. Como há acoplamento matemático 3, 4, 5 entre a HDD basal e o resultado, o preenchimento ósseo horizontal (ou seja, a mudança na HDD), outras análises estatísticas são justificadas para suportar essa suposta associação. Em geral, o acoplamento matemático ocorre quando uma variável contém, de forma direta ou indireta, a totalidade ou parte de outra, e as duas variáveis ​​são então analisadas usando correlação ou regressão4, como investigar a relação entre mudança ou variação percentual em variáveis ​​(por exemplo, após uma intervenção ) E seus valores iniciais da linha de base (isto é, antes da intervenção). 3, 4, 5 Consequentemente, o procedimento estatístico de testar a hipótese nula 8212 de que o coeficiente de correlação ou a inclinação da regressão é zero 8212 torna-se inadequado. No entanto, não obstante o acoplamento matemático, a Tabela 2 no artigo original mostra que, nos modelos para cada grupo de tratamento, havia uma covariável cujo coeficiente de regressão estava ausente. A tabela original usou NA. Que provavelmente foi a abreviatura de não disponível ou não aplicável (embora nenhuma explicação tenha sido dada no artigo original sobre por que esses coeficientes de regressão não estavam disponíveis). Isso ilustra como a multicolinearidade perfeita é freqüentemente ignorada porque a maioria dos softwares estatísticos (se for necessário para prosseguir automaticamente) remova uma das covariáveis ​​perfeitamente colineares, a fim de obter estimativas de modelo significativas de todos os coeficientes de covariável remanescentes. Alguns pesquisadores talvez não prestem atenção suficiente às advertências que muitas vezes acompanham a saída de regressão de muitos pacotes de software quando a multicolinearidade perfeita está presente. Neste exemplo, CAL PPD GMP e, portanto, uma dessas três variáveis ​​deve ser descartada do modelo para estimativa para prosseguir de forma significativa. É curioso observar que, se executado com dados ligeiramente diferentes dentro do mesmo pacote de software estatístico, o modelo final pode de fato excluir uma covariável diferente: para o grupo de tratamento de GTR, a CAL foi removida, mas para o grupo de tratamento de GTR combinado Com enxerto ósseo, o PPD foi removido. Remoção de variáveis ​​explicativas redundantes Os problemas de colinearidade e multicolinearidade nos três exemplos podem ser diagnosticados utilizando o VIF ou o índice de condição. Embora o VIF gt 10 seja o critério mais frequentemente sugerido pelos livros didáticos, este não é, em nossa opinião, o único critério a ser usado. A direção inesperada das associações entre o resultado e as variáveis ​​explicativas é um sinal importante de colinearidade e multicolinearidade. Quando a direção da associação difere entre regressão de correlação simples e regressão multivariada, isso não indica necessariamente que a pesquisa tenha encontrado resultados intrigantes. Pelo contrário, os pesquisadores devem examinar cuidadosamente as relações entre todas as variáveis ​​explicativas nos modelos de regressão. Se algumas das variáveis ​​colineares são redundantes, em termos de não fornecer informações extra úteis, ou são simplesmente medidas duplicadas da mesma variável, uma solução é remover essas variáveis ​​do modelo. Por exemplo, na periodontia, a avaliação da extensão da ruptura periodontal pode ser feita clinicamente ou radiograficamente, e essas duas medidas parecem estar altamente correlacionadas. Incluir ambas as variáveis ​​no mesmo modelo provavelmente faz mais mal do que o bem do ponto de vista estatístico. Multicollinearidade pode ser um problema para uma covariável quando incluída em um modelo, juntamente com a sua forma quadrática em uma regressão não-linear ou quando também é incluída através de um termo de interação do produto com outra variável. 7, 8, 9, 10 Por exemplo, se a questão da pesquisa é se o número de cigarros fumados e a quantidade de álcool consumida têm um efeito sinérgico sobre o risco de câncer bucal, um termo 8212 de consumo de tabaco-álcool 8212 pode ser Gerado e inserido como covariável adicional, além de fumar e álcool. Esta covariável adicional é criada pela multiplicação da variável fumante (o número de cigarros fumados) ea variável álcool (a quantidade de álcool consumida). Como fumar-álcool é derivado matematicamente de fumar e álcool. Haverá correlações substanciais entre as três variáveis. No entanto, a correlação entre fumar álcool e fumar ou álcool pode ser consideravelmente reduzida se a interação termo fumar-álcool foi gerada após os valores de tabagismo e álcool foram centrados 9, ou seja, transformados por subtrair os valores médios de cada uma das variáveis ​​originais . Por exemplo, suponha que haja cinco pacientes em um estudo, e o número de cigarros fumados por dia por cada paciente é de 5, 10, 15, 20 e 25, respectivamente. Após a centralização, os valores para o fumo variável tornam-se 10, -5, 0, 5 e 10, uma vez que o número médio de cigarros fumados é 15. Além dos problemas causados ​​por termos quadráticos e termos de interação do produto, a centralização das variáveis ​​explicativas , Em geral, não resolve o problema da colinearidade ou multicolinearidade porque, matematicamente, o coeficiente de correlação pode ser interpretado como um termo de produto de duas variáveis ​​centradas divididas pelas suas variâncias. Assim, a menos que o problema seja causado por colinearidade, a mulinecidade entre apenas a intercepção e outras variáveis ​​explicativas, tanto a direção de associação entre o resultado quanto as covariáveis ​​colineares e todos os testes de significância associados permanecem inalterados após a centralização das covariáveis ​​colineares. Análise de componentes principais e regressão de cume A análise de componentes principais (PCA) foi proposta como uma solução para os problemas numéricos causados ​​pela colinearidade e multicolinearidade. 7, 9, 10 As variáveis ​​explicativas são centradas e reorganizadas em componentes não correlacionados. Cada componente principal é uma combinação linear de todas as variáveis ​​explicativas e o número de componentes principais é equivalente ao número de variáveis ​​explicativas. Os pesquisadores geralmente selecionam os primeiros componentes principais que explicam a maior parte da variância das covariáveis ​​e usam análise de regressão múltipla para regredir o resultado nos principais componentes selecionados. Os coeficientes de regressão de cada variável explicativa original são então derivados dos coeficientes de regressão dos componentes principais selecionados. A vantagem da PCA é que, ao selecionar apenas alguns componentes principais (ou seja, não todos), o problema dos sinais errados entre os coeficientes de regressão (ou seja, o sinal do coeficiente de regressão sendo contraditório com a expectativa) é geralmente corrigido. No entanto, uma desvantagem importante da PCA é que os principais componentes selecionados podem explicar as variâncias das covariáveis, mas mal explicam a variação do resultado. 10, 20 Outro método comumente recomendado por livros didáticos estatísticos, embora relativamente desconhecido para a maioria dos pesquisadores dentários, é a regressão do cume. 21 Ao adicionar pequenos valores às variáveis ​​explicativas, esta abordagem fornece estimativas tendenciosas, mas mais estáveis, de coeficientes de regressão. 10, 15, 21, 22 Também deve ser notado que PCA e regressão de cume são inúteis se existir colinearidade perfeita ou multicolinearidade dentro dos dados. Como esses dois métodos envolvem teoria estatística avançada e cálculos matemáticos complexos, descrições detalhadas desses métodos estão além do escopo deste artigo, e recomendamos que pesquisadores dentários consultem estatísticos profissionais antes de embarcarem em análises tão complexas. Conclusão As análises de regressão multivariada são ferramentas úteis para pesquisa em saúde bucal, mas somente se os usuários entenderem corretamente seus pressupostos e limitações subjacentes. Embora a análise multivariada tenha sido amplamente utilizada, é necessário um maior esforço para melhorar a compreensão básica desses métodos estatísticos complexos entre pesquisadores de saúde bucal. Os diagnósticos de regressão para colinearidade devem ser adotados e relatados por estudos nos quais modelos de regressão complexos são utilizados. Sugerimos fortemente que pesquisadores dentários consultem bioestatistas profissionais com experiência em modelos estatísticos de dados clínicos (muitas vezes colineares) e evitem se embarcar em análises estatísticas complexas. Referências Altman DG. Estatísticas em revistas médicas: desenvolvimentos na década de 1980. Statistics in Medicine 1991 10. 189782111913. Artigo PubMed ISI ChemPort Altman DG. Estatísticas em revistas médicas. Statistics in Medicine 1982 1. 59821171. Artigo PubMed ChemPort Tu Y, Gilthorpe MS, Griffiths GS. A redução da profundidade de sondagem de bolso está correlacionada com o valor da linha de base ou é um acoplamento matemático J Dent Res 2002 81. 7228211726. PubMed ISI Tu Y-K, Maddick IH, Griffiths GS, Gilthorpe MS. O acoplamento matemático ainda mina a avaliação estatística da pesquisa clínica: ilustração do tratamento da regeneração tecida do tecido. J Dent 2004 32. 1338211142. Artigo PubMed ISI Tu Y-K, Clerehugh V, Gilthorpe MS. As variáveis ​​de razão na análise de regressão podem dar origem a resultados espúrios: uma lição da regeneração de tecido guiado. J Dent 2004 32. 1438211151. Artigo PubMed ISI Miles J, Shelvin M. Aplicando regressão e correlação. Londres: Sage Publication, 2001. Glantz SA, Slinker BY. Regressão aplicada e análise de variância. Nova Iorque: McGraw-Hill, 2001. Pedhazur EJ. Regressão múltipla na pesquisa comportamental: Explicação e previsão. Pp 2948211313. Fort Worth: Harcourt, 1997. Slinker BY, Glantz SA. Regressão múltipla para análise de dados fisiológicos: o problema da multicolinealidade. Amer J Phys 1985 249. R18211R12. ISI ChemPort Chatterjee S, Hadi AS, preço B. Análise de regressão por exemplo. 3º Ed. Pp 2258211284. Nova Iorque: John Wiley amp Sons, 2000. Maddala GS. Introdução à econometria. 3º Ed. Pp 2678211300. Chichester: John Wiley amp Sons, 2001. Kirkwood B, Stern JAC. Estatísticas médicas essenciais. 2º Ed. Pp 3378211339. Oxford: Blackwell, 2003. Moles D. Outras estatísticas em odontologia: Introdução. Br Dent J 2002 193. 375. Artigo ISI Petrie A, Bulman JS, Osborn JF. Outras estatísticas em odontologia Parte 6: Regressão linear múltipla Br Dent J 2002 193. 6758211682. Artigo PubMed ISI ChemPort Tu Y-K, Clerehugh V, Gilthorpe MS. A colinéeridade na regressão linear é um problema sério na pesquisa em saúde bucal. Euro J Oral Sci 2004 112. 3898211397. ISI Draper NR, Smith H. Análise de regressão aplicada. 3º Ed. Nova York: John Wiley amp Sons, 1998. Seki M, Karakama F, Terajima T, Ichikawa, Ozaki T, Yoshida S, Yamashita Y. Avaliação de Streptococos Mutans em placa e saliva: correlação com desenvolvimento de cárie em pré-escolares. J Dent 2003 31. 2838211290. Artigo PubMed ISI ChemPort Jansson L, Lavstedt S, Zimmerman M. Predição da perda óssea marginal e perda dentária 8212 um estudo prospectivo ao longo de 20 anos. J Clin Perio 2002 29. 6728211678. ISI Simonpietri JJ, Novaes AB, Batista ELJr, Feres Filho EJ. Regeneração de tecido guiado associada ao osso anorganico derivado de osso em defeitos de furcação da classe II mandibular. Resultados de 6 meses na reentrada. J Perio 2000 71. 9048211911. ISI Hadi AS, Ling RF. Algumas notas cautelares sobre o uso da regressão dos componentes principais. American Statistician 1998 52. 15821119. Artigo ISI Hoerl AE, Kennard RW. Regressão de Ridge: estimativa tendenciosa para problemas não ortogonais. Technometrics 1970 12. 69821182. Artigo ISI Belsley DA. Diagnóstico de condicionamento. Nova Iorque: John Wiley amp Sons, 1991. Clinical Reesearch Fellow, Departamento de Periodontologia, Divisão de Odontologia Restauradora, Leeds Dental Institute, Universidade de Leeds, Leeds LS2 9LU e Unidade de Bioestática, Centro de Epidemiologia e Bioestatística, Universidade de Leeds, Leeds LS2 9LN DeanDirector do Instituto Dental Leeds e Consultor em Restauração Odontologia, Divisão de Odontologia Restauradora, Leeds Dental Institute, Universidade de Leeds Professor de Periodontologia, Departamento de Periodontologia, Divisão de Odontologia Restauradora, Leeds Dental Institute, Universidade de Leeds Leitor em Epidemiologia Estatística, Unidade de Bioestática, Centro de Epidemiologia e Bioestática, Universidade de Leeds. Navegação principal Conteúdo do jornal Navegação extra

No comments:

Post a Comment