Econometria I

Aula 34

Ricardo Gouveia-Mendes


Licenciatura em Economia
2.º Semestre 2023-24

Problemas com os Dados

Multicolinearidade

Natureza e efeitos

  • Já falámos do problema da colinearidade perfeita
    • Podemos escrever uma variável como função exata de outra
    • OLS não se pode usar
  • Agora vamos alargar o âmbito do problema: e se a colinearidade for elevada, mas não for perfeita?
    • Falamos então de Multicolinearidade
    • Não impede a utilização de OLS e não afeta as suas propriedades
    • Mas a variância dos estimadores aumenta, diminuindo precisão da estimação

Multicolinearidade

Como detetar?

  • Não existem testes estatísticos
  • Alguns indícios
    • Coeficiente de correlação elevando entre pares de variáveis explicativas
    • A regressão de uma variável explicativas nas restantes produz um \(R^2\) elevado
    • Acrescentar ou retirar observações provoca alterações significativa nos resultados
  • Critério de diagnóstico: VIF (Variance Inflation Factor) \[ VIF \equiv \frac{1}{(1-R^2_j)} > 10,\quad j=1,\dots,k \] em que \(R^2_j\) é o \(R^2\) da regressão da variável explicativa \(j\) nas outras variáveis

Multicolinearidade

Soluções

  • A multicolinearidade é uma caraterística dos dados e não tanto do modelo, como tal, não tem solução
  • Estratégias para a mitigar:
    • Aumentar o tamanho da amostra
    • Usar outra forma funcional (\(\ln(\cdot)\)?)
    • Manter no modelo apenas uma das variáveis suspeitas

Valores Extremos

Natureza e efeitos

  • Trata-se de observações consideradas anormais em relação às outras e, assim, com impacto nos resultados da estimação
  • Principais causas:
    • Má qualidade da amostra que não tem uma representação das caudas pesadas da distribuição de valores na população
    • Erros de medida (registo incorreto, respostas falsas)
    • Pode pertencer a população diferente, que não nos interessa estudar

Valores Extremos

Soluções

  • Para amostras de má qualidade: aumentar a dimensão ou recolher a amostra de forma estratificada
  • Erros de medida: métodos que serão aprendidos em Econometria II
  • População diferente: retirar observações
  • Na prática: pode ser difícil perceber a causa e, portanto, a melhor solução a adotar

Valores Extremos

Tipologia e consequências sobre estimadores OLS

  1. Valores alavanca: observados nas variáveis explicativas
    Exemplo: casas com combinações atípicas de caraterísticas
  • Enviesam coeficientes na sua direção
  • Produzem resíduos de valor reduzido
  • Quando eliminados, valores dos outros coeficientes alteram-se substancialmente

Valores Extremos

Tipologia e consequências sobre estimadores OLS

  1. Outliers: observados na variável dependente
    Exemplo: casas demasiado caras/baratas para as suas caraterísticas
  • Influenciam pouco as estimativas dos parâmetros
  • Produzem resíduos elevados (o que também aumenta a sua variância)
  • Aumentam a variância dos estimadores (o que prejudica a inferência)
  1. Valores influentes: observados tanto para as variáveis explicativas, como para a variável dependente
  • Produzem uma combinação dos efeitos anteriores

Valores Extremos

Critérios de deteção

Valores alavanca

  • Calcular \(h_i,\, i=1,\dots,N\) que são os elemtnos da diagonal da matriz \(P=X(X'X)^{-1}X'\)
  • Calcular a média \(\sum_{i=1}^N h_i / N \Leftrightarrow p/N\)
  • Uma observação é considerada alavane se \(h_i>2p/N\)

Outliers

  • Calcular: \[ \hat{u}^s_i = \frac{\hat{u}_i}{\hat{\sigma}_{\hat{u}^*} \sqrt{1-h_i}},\quad i=1,\dots,N \] em que \(\hat{\sigma}_{\hat{u}^*}\) é o desvio-padrão dos resíduos de uma regressão excluindo a observação \(i\)
  • Uma observação \(i\) é considerada outlier se \(\hat{u}^s_i \not\in [-2,2]\)

Valores Extremos

Critérios de deteção


Valores influentes

  • Medida de Cook: \[ D_i = \frac{\hat{u}_i}{k+1} \frac{h_i}{1-h_i},\quad i=1,\dots,N \]
  • Uma observação é considerada influente se \(D_i > 4/N\)

Exercícios

Exercício 9.1 🖥️

Considere os seguintes dados:

y x1 x2 x3
80 2.0 25 2.5
100 1.0 30 2.0
110 1.0 40 5.0
120 2.0 45 4.0
90 1.2 30 3.0
85 1.5 20 1.5
70 1.5 30 3.5
105 2.0 60 5.0
95 2.5 50 5.5
115 2.0 60 6.0
  1. Efectue a regressão de \(Y\) nas restantes variáveis.

Call:
lm(formula = y ~ x1 + x2 + x3, data = df)

Residuals:
     Min       1Q   Median       3Q      Max 
-17.7432  -2.5914   0.7333   2.7050  19.2940 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)  77.4325    15.1157   5.123  0.00217 **
x1          -11.3779     9.7588  -1.166  0.28790   
x2            1.3758     0.7127   1.930  0.10179   
x3           -3.9704     6.3465  -0.626  0.55461   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 12.52 on 6 degrees of freedom
Multiple R-squared:  0.5927,    Adjusted R-squared:  0.3891 
F-statistic:  2.91 on 3 and 6 DF,  p-value: 0.123


\[ \hat{Y}_i = 77.4325 -11.3779 X_{1i} + 1.3758 X_{2i} -3.9704 X_{3i} \]

Exercício 9.1 🖥️

  1. Suspeita-se que exista multicolineariedade neste modelo. Usando o critério VIF, verifique se há fundamento para esta suspeita.


Regressão de \(X_1\) nas outras variáveis


Call:
lm(formula = x1 ~ x2 + x3, data = df)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.68490 -0.24226 -0.03185  0.20828  0.62479 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)  
(Intercept)  0.934418   0.466909   2.001   0.0855 .
x2           0.019211   0.026631   0.721   0.4941  
x3          -0.003594   0.245798  -0.015   0.9887  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.485 on 7 degrees of freedom
Multiple R-squared:  0.2844,    Adjusted R-squared:  0.07997 
F-statistic: 1.391 on 2 and 7 DF,  p-value: 0.31

\[ VIF = \frac{1}{1-0.2844} =1.3975 < 10 \]

Regressão de \(X_2\) nas outras variáveis


Call:
lm(formula = x2 ~ x1 + x3, data = df)

Residuals:
    Min      1Q  Median      3Q     Max 
-6.0503 -5.1909 -0.7711  3.1076 10.4620 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)    3.378      7.914   0.427  0.68228   
x1             3.602      4.993   0.721  0.49406   
x3             7.791      1.630   4.781  0.00201 **
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 6.641 on 7 degrees of freedom
Multiple R-squared:  0.8322,    Adjusted R-squared:  0.7843 
F-statistic: 17.36 on 2 and 7 DF,  p-value: 0.001934

\[ VIF = \frac{1}{1-0.8322} =5.9604 < 10 \]

Exercício 9.1 🖥️

Regressão de \(X_3\) nas outras variáveis


Call:
lm(formula = x3 ~ x1 + x2, data = df)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.92137 -0.42259  0.07937  0.47200  1.09605 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)   
(Intercept) -0.017873   0.900193  -0.020  0.98471   
x1          -0.008499   0.581181  -0.015  0.98874   
x2           0.098258   0.020552   4.781  0.00201 **
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.7458 on 7 degrees of freedom
Multiple R-squared:  0.8198,    Adjusted R-squared:  0.7683 
F-statistic: 15.92 on 2 and 7 DF,  p-value: 0.002486

\[ VIF = \frac{1}{1-0.8198} =5.5481 < 10 \]

Logo, não há fundamento para suspeitar de multicolinearidade

Exercício 9.2 🖥️

Considere os dados em ANSCOMBE.DTA para este exercício.

  1. Confirme que as variáveis \(Y_j\), \(j=1,2,3,4\), por um lado, e as variáveis \(X_j\), \(j = 1, 2, 3, 4\), por outro lado, têm a mesma média e desvio-padrão amostrais.
variables N Mean StdDev Min Max
x1 11 9.000000 3.316625 4.00 14.00
x2 11 9.000000 3.316625 4.00 14.00
x3 11 9.000000 3.316625 4.00 14.00
x4 11 9.000000 3.316625 8.00 19.00
y1 11 7.500909 2.031568 4.26 10.84
y2 11 7.500909 2.031657 3.10 9.26
y3 11 7.500000 2.030424 5.39 12.74
y4 11 7.500909 2.030578 5.25 12.50

Exercício 9.2 🖥️

  1. Estime os seguintes modelos, guardando os valores estimados de \(Y_j\) e confirmando que em todos os casos \(\beta_0 = 3\), \(\beta_1 = 0.5\) e \(R^2 = 0.67\): \[ \begin{align} Y_1 &= \beta_0 + \beta_1 X_1 + u_1 \\ Y_2 &= \beta_0 + \beta_1 X_2 + u_2 \\ Y_3 &= \beta_0 + \beta_1 X_3 + u_3 \\ Y_4 &= \beta_0 + \beta_1 X_4 + u_4 \end{align} \]

Call:
lm(formula = y1 ~ x1, data = df)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.92127 -0.45577 -0.04136  0.70941  1.83882 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)   3.0001     1.1247   2.667  0.02573 * 
x1            0.5001     0.1179   4.241  0.00217 **
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.237 on 9 degrees of freedom
Multiple R-squared:  0.6665,    Adjusted R-squared:  0.6295 
F-statistic: 17.99 on 1 and 9 DF,  p-value: 0.00217



Call:
lm(formula = y2 ~ x2, data = df)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.9009 -0.7609  0.1291  0.9491  1.2691 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)    3.001      1.125   2.667  0.02576 * 
x2             0.500      0.118   4.239  0.00218 **
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.237 on 9 degrees of freedom
Multiple R-squared:  0.6662,    Adjusted R-squared:  0.6292 
F-statistic: 17.97 on 1 and 9 DF,  p-value: 0.002179

Exercício 9.2 🖥️


Call:
lm(formula = y3 ~ x3, data = df)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.1586 -0.6146 -0.2303  0.1540  3.2411 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)   3.0025     1.1245   2.670  0.02562 * 
x3            0.4997     0.1179   4.239  0.00218 **
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.236 on 9 degrees of freedom
Multiple R-squared:  0.6663,    Adjusted R-squared:  0.6292 
F-statistic: 17.97 on 1 and 9 DF,  p-value: 0.002176



Call:
lm(formula = y4 ~ x4, data = df)

Residuals:
   Min     1Q Median     3Q    Max 
-1.751 -0.831  0.000  0.809  1.839 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)   3.0017     1.1239   2.671  0.02559 * 
x4            0.4999     0.1178   4.243  0.00216 **
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.236 on 9 degrees of freedom
Multiple R-squared:  0.6667,    Adjusted R-squared:  0.6297 
F-statistic:    18 on 1 and 9 DF,  p-value: 0.002165
  1. Represente graficamente os valores observados e os valores estimados e comente os resultados obtidos.

Exercício 9.2 🖥️

  • Regressão 1: Os erros parecem ser aleatórios
  • Regressão 2: Os erros parecem seguir um padrão quadrático
  • Regressão 3: Há um outlier
  • Regressão 4: Valor extremo da variável explicativa

Exercício 9.2 🖥️

  1. Reestime o segundo modelo adicionando a variável \(X_2^2\) ao modelo.

Call:
lm(formula = y2 ~ x2 + I(x2^2), data = df)

Residuals:
       Min         1Q     Median         3Q        Max 
-0.0013286 -0.0011888 -0.0006296  0.0008744  0.0023776 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -5.9957353  0.0043300   -1385   <2e-16 ***
x2           2.7808394  0.0010401    2674   <2e-16 ***
I(x2^2)     -0.1267133  0.0000571   -2219   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.001672 on 8 degrees of freedom
Multiple R-squared:      1, Adjusted R-squared:      1 
F-statistic: 7.378e+06 on 2 and 8 DF,  p-value: < 2.2e-16
  1. Reestime o terceiro modelo omitindo a observação outlier.

Call:
lm(formula = y3 ~ x3, data = subset(df, x3 < 10))

Residuals:
        1         2         3         4         5         6 
 0.003143 -0.001429  0.002286  0.001429 -0.002286 -0.003143 
attr(,"format.stata")
[1] "%9.0g"

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 4.0102855  0.0047033   852.6 1.14e-11 ***
x3          0.3445715  0.0006998   492.4 1.02e-10 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.002928 on 4 degrees of freedom
Multiple R-squared:      1, Adjusted R-squared:      1 
F-statistic: 2.424e+05 on 1 and 4 DF,  p-value: 1.021e-10