Econometria I

Aula 28

Ricardo Gouveia-Mendes


Licenciatura em Economia
2.º Semestre 2023-24

Teste para a Forma Funcional e Critérios de Seleção
de Modelos

O Problema da Forma Funcional

  • Vimos que o que define uma regressão linear é a linearidade nos parâmetros
  • As variáveis explicativas podem, contudo, aparecer com formas funcionais não lineares (logarítmica, quadrática)
  • Será possível saber se a forma funcional escolhida para no modelo é correta? 🤔
  • Sim. Através do teste RESET

O Teste RESET

Princípios

  • A verdadeira forma funcional \(S(\cdot)\) de qualquer modelo econométrico é desconhecida \[ Y = S\left(\mathrm{X}\boldsymbol{\beta}\right) + u \Rightarrow \mathbb{E}[Y|\mathrm{X}] = S\left(\mathrm{X}\boldsymbol{\hat{\beta}}\right) \]
  • Qualquer função matemática se pode aproximar por uma expansão em série de Taylor \[ \mathbb{E}[Y|\mathrm{X}] = \mathrm{X}\boldsymbol{\hat{\beta}} + \sum_{i=1}^\infty \theta_j \left(\mathrm{X}\boldsymbol{\hat{\beta}}\right)^{j+1} \]

O Teste RESET

Princípios

\[ Y=\beta_0 + \beta_1 X_1 + \dots + \beta_k X_k + u \]

  • A forma mais comum do teste RESET acrescenta dois polinómios (2.ª e 3.ª ordem) ao modelo: \[ Y=\beta_0 + \beta_1 X_1 + \dots + \beta_k X_k + \theta_1 \hat{Y}^2 + \theta_2 \hat{Y}^3 + v \]
  • Se \(\theta_1=\theta_2=0\) então \(S\left(\mathrm{X}\boldsymbol{\hat{\beta}}\right)=\mathrm{X}\boldsymbol{\hat{\beta}}\)

O Teste RESET

Procedimento

  1. Estimar o modelo original: \(Y=\beta_0 + \beta_1 X_1 + \dots + \beta_k X_k + u\)

  2. Obter as variáveis: \(\hat{Y}\), \(\hat{Y}^2\) e \(\hat{Y}^3\)

  3. Estimar o modelo auxiliar: \(Y=\beta_0 + \beta_1 X_1 + \dots + \beta_k X_k + \theta_1 \hat{Y}^2 + \theta_2 \hat{Y}^3 + v\)

  4. Realizar um teste F ou LM para comparar os dois modelos: \[ H_0: \theta_1=\theta_2=0 \qquad H_1: \text{ Não } H_0 \]

  5. Se não rejeitamos \(H_0\) o modelo original está bem especificado

Critérios para a Seleção de Modelos

  • Por vezes, podem existir vários modelos que parecem adequados. Como escolher? 🤔
  • Quando um dos modelos é um caso particular do outro (modelos encaixados) aplica-se um teste F ou LM
  • Se tivermos modelos não encaixados, mas com o mesmo número de variáveis explicativas podemos usar o \(R^2\) para decidir qual é melhor (o que tiver \(R^2\) maior)
  • O problema são os modelos não encaixados com diferente número de regressores 😩

Critérios para a Seleção de Modelos

O \(R^2\) Ajustado

  • Para o caso de modelos não encaixados com diferentes números de regressores usa-se o \(R^2\) Ajustado \[ \boxed{\overline{R}^2 = 1- (1-R^2) \frac{N-1}{N-p} = 1 - \frac{SQR / (N-k)}{SQT / (N-1)}} \]
  • Não tem qualquer interpretação útil (pode ser negativo)
  • O melhor modelo será o que apresentar um \(\overline{R}^2\) maior
  • Continuamos a só poder comparar modelos com a mesma variável dependente (incluindo a forma funcional com que aparece no modelo)

Exercícios

Exercício 6.3 🖥️

Considere os dados de PRECASA.DTA e os modelos \[ \begin{align} (1)\quad &preco = \beta_0 + \beta_1 lote + \beta_2 area + \beta_3 quartos + u \\ (2)\quad &preco = \beta_0 + \beta_1 lote + v \\ (3)\quad &preco = \beta_0 + \beta_1 \ln(lote) + \beta_2 \ln(area) + \beta_3 quartos + w \\ \end{align} \]

  1. Através de testes e critérios apropriados, verifique qual dos modelos é mais adequado para explicar a variação no preço da habitação.
  • Modelos (1) e (2): comparáveis por meio de um teste estatístico (F ou LM)
  • Modelos (1) e (3): comparáveis através do \(R^2\) (mesmo número de variáveis)
  • Modelo (2) e (3): comparáveis através do \(R^2\) ajustado (não encaixados)

Exercício 6.3 🖥️

Alínea a) | 1.º passo: estimar os três modelos

Estimar modelo (1): regress preco lote area quartos


Call:
lm(formula = preco ~ lote + area + quartos, data = df)

Residuals:
     Min       1Q   Median       3Q      Max 
-120.457  -38.372   -6.185   32.223  208.807 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -21.726448  29.479635  -0.737  0.46318    
lote          0.022236   0.006914   3.216  0.00184 ** 
area          1.322524   0.142645   9.271 1.69e-14 ***
quartos      13.786398   9.015998   1.529  0.13000    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 59.84 on 84 degrees of freedom
Multiple R-squared:  0.6722,    Adjusted R-squared:  0.6605 
F-statistic: 57.43 on 3 and 84 DF,  p-value: < 2.2e-16

Exercício 6.3 🖥️

Alínea a) | 1.º passo: estimar os três modelos

Estimar modelo (2): regress preco lote


Call:
lm(formula = preco ~ lote, data = df)

Residuals:
    Min      1Q  Median      3Q     Max 
-268.76  -51.76  -22.80   35.73  354.41 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 261.93341   13.83699  18.930  < 2e-16 ***
lote          0.03773    0.01099   3.433  0.00092 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 96.88 on 86 degrees of freedom
Multiple R-squared:  0.1205,    Adjusted R-squared:  0.1103 
F-statistic: 11.79 on 1 and 86 DF,  p-value: 0.0009204

Exercício 6.3 🖥️

Alínea a) | 1.º passo: estimar os três modelos

  • Criar variáveis logarítmicas: gen llote = log(lote) e gen larea = log(area)
  • Estimar modelo (3): regress preco llote larea quartos

Call:
lm(formula = preco ~ log(lote) + log(area) + quartos, data = df)

Residuals:
     Min       1Q   Median       3Q      Max 
-109.270  -38.209   -4.924   23.890  217.590 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -1347.87     141.53  -9.524 5.24e-15 ***
log(lote)      61.47      12.30   4.998 3.12e-06 ***
log(area)     225.44      29.87   7.547 4.87e-11 ***
quartos        19.23       8.85   2.172   0.0326 *  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 59.3 on 84 degrees of freedom
Multiple R-squared:  0.6782,    Adjusted R-squared:  0.6667 
F-statistic:    59 on 3 and 84 DF,  p-value: < 2.2e-16

Exercício 6.3 🖥️

Alínea a) | 2.º passo: testar modelos

Modelo (1) vs modelo (2)

\[ \begin{align} H_0: &\beta_2 = \beta_3 = 0 \\ H_1: &\text{ Não } H_0 \end{align} \]

\[ \begin{align} F &= \frac{R^2 - R^2_*}{1 - R^2} \frac{N-p}{q} = \\ &= 70.6988 > 3.1052 = F^{2}_{84} \\[1em] p\text{-value} &= 0 < 0.05 = \alpha \end{align} \] Rejeitamos \(H_0\), pelo que o modelo (1) é preferível ao modelo (2)

Modelo (1) vs modelo (3)

\[ R^2_{(1)} = 0.6722 < 0.6782 = R^2_{(3)} \] O modelo (3) é preferível ao modelo (1)

Modelo (2) vs modelo (3)

\[ \overline{R^2}_{(2)} = 0.1103 < 0.6667 = \overline{R^2}_{(3)} \] O modelo (3) é preferível ao modelo (2)

Exercício 6.3 🖥️

Alínea b)

  1. Verifique se a forma funcional do modelo que selecionou na Alínea anterior foi especificada corretamente, usando o teste RESET (versão F).

1.º passo: estimar regressão auxiliar

  • Obter vetor de estimativas para a variável dependente: predict yhat
  • Criar variáveis auxiliares: gen yhat2 = yhat^2 e gen yhat3 = yhat^3
  • Estimar modelo auxiliar: regress preco llote larea quartos yhat2 yhat3

Exercício 6.3 🖥️

Alínea b) | 1.º passo: estimar regressão auxiliar


Call:
lm(formula = preco ~ log(lote) + log(area) + quartos + I(yhat_3^2) + 
    I(yhat_3^3), data = df)

Residuals:
    Min      1Q  Median      3Q     Max 
-121.49  -30.62   -6.50   26.29  192.50 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.439e+03  2.469e+03  -0.583    0.561
log(lote)    6.308e+01  1.061e+02   0.595    0.554
log(area)    2.704e+02  3.826e+02   0.707    0.482
quartos      1.625e+01  3.321e+01   0.489    0.626
I(yhat_3^2) -3.944e-03  5.176e-03  -0.762    0.448
I(yhat_3^3)  7.005e-06  5.016e-06   1.396    0.166

Residual standard error: 50.93 on 82 degrees of freedom
Multiple R-squared:  0.7683,    Adjusted R-squared:  0.7542 
F-statistic: 54.38 on 5 and 82 DF,  p-value: < 2.2e-16

Exercício 6.3 🖥️

Alínea b) | 2.º passo: realizar o teste F

\[ \begin{align} H_0: &\beta_4 = \beta_5 = 0 \\ H_1: &\text{ Não } H_0 \end{align} \]

\[ \begin{align} F &= \frac{R^2 - R^2_*}{1 - R^2} \frac{N-p}{q} = \\ &= 15.9466 > 3.1079 = F^{2}_{82} \\[1em] p\text{-value} &= 0 < 0.05 = \alpha \end{align} \] Rejeitamos \(H_0\), pelo que a forma funcional do modelo (3) não é adequada

Exercício 6.3 🖥️

Alínea c)

  1. Repita a alínea anterior mas usando a versão LM do teste RESET.

1.º passo: estimar regressão auxiliar

  • Obter vetor de estimativas para os resíduos do modelo (3): predict uhat, resid
  • Estimar modelo auxiliar: regress uhat llote larea quartos yhat2 yhat3

Exercício 6.3 🖥️

Alínea c) | 1.º passo: estimar regressão auxiliar


Call:
lm(formula = uhat_3 ~ log(lote) + log(area) + quartos + I(yhat_3^2) + 
    I(yhat_3^3), data = df)

Residuals:
    Min      1Q  Median      3Q     Max 
-121.49  -30.62   -6.50   26.29  192.50 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)
(Intercept) -9.131e+01  2.469e+03  -0.037    0.971
log(lote)    1.616e+00  1.061e+02   0.015    0.988
log(area)    4.501e+01  3.826e+02   0.118    0.907
quartos     -2.980e+00  3.321e+01  -0.090    0.929
I(yhat_3^2) -3.944e-03  5.176e-03  -0.762    0.448
I(yhat_3^3)  7.005e-06  5.016e-06   1.396    0.166

Residual standard error: 50.93 on 82 degrees of freedom
Multiple R-squared:   0.28, Adjusted R-squared:  0.2361 
F-statistic: 6.379 on 5 and 82 DF,  p-value: 4.732e-05

Exercício 6.3 🖥️

Alínea c) | 2.º passo: realizar o teste LM

\[ \begin{align} H_0: &\text{Forma funcional correta} \\ H_1: &\text{Forma funcional incorreta} \end{align} \]

\[ \begin{align} LM &= N\times R^2 = \\ &= 24.6423 > 5.9915 = \chi^2_{2} \\[1em] p\text{-value} &= 0 < 0.05 = \alpha \end{align} \] Rejeitamos \(H_0\), pelo que confirmamos que a forma funcional do modelo (3) não é adequada