모델 > Bayesian 정보량 기준 (BIC)
Models > Bayesian Information Criterion (BIC)
메뉴가 비활성화되어 있다. 데이터를 불러와도 비활성화된 상태가 유지된다.
'모델 > Bayesian 정보량 기준 (BIC)' 메뉴는 모형이 만들어진 이후에 사용할 수 있기 때문이다. datasets 패키지에 있는 swiss 데이터셋을 이용하여 연습해보자.
datasets 패키지에 있는 swiss 데이터셋은 1880년대 스위스 지방의 출산율과 사회경제적인 요인들에 대한 정보를 담고있다. 출산율(Fertility)에 영향을 미치는 요인들을 찾고, 설명력 높은 모형을 선택하고자 하는 과정이 필요하다. 다중회귀분석 기법을 활용한 선형모델을 만들고 계산하였다고 가정하자.
LinearModel.1 <- lm(Fertility ~ Agriculture + Catholic + Education + Examination +
Infant.Mortality, data=swiss)
LinearModel.2 <- lm(Fertility ~ Agriculture + Catholic + Education + Infant.Mortality,
data=swiss)
summary(LinearModel.1)
summary(LinearModel.2)
LinearModel.1과 LinearModel.2를 비교해보면, 설명변수에 Examination이 포함되어 있는가 여부이다. Examination 변수는 스위스의 지방별로 'draftees receiving highest mark on army examination'의 %를 사례값으로 담고 있다. 두 모형의 분석결과, 특히 Examination 변수의 유무에 따른 차이를 꼼꼼히 살펴보자.
LinearModel.1을 살펴보면, Examination 변수는 Fertility 변수에 유의미한 영향력을 미친다고 보기 어렵다. 그렇다면, LinearModel.1과 LinearModel.2에서 어느 모형을 선택해야 하는가? 두 모형의 Multiple R-squared, Adjusted R-squared, F-statistic, p-value 등은 작은 차이를 나타낸다.
이 때 사용하는 방법의 하나가 Bayesian 정보량 기준 (BIC)이다. 'When comparing models fitted by maximum likelihood to the same data, the smaller the AIC or BIC, the better the fit.' 최대우도 또는 최대가능도 기법을 통하여 모형들을 비교할 때, 상대적으로 작은 값이 보다 적합도가 높다는 뜻이다. 결국 LinearModel.1과 LinearModel.2에서 어느 모형의 BIC 값이 더 작은가를 확인하여 보다 적합도가 높은 모형을 선택하고자 하는 것이다.
LinearModel.2의 BIC 값이 LinearModel.1의 BIC 값보다 미세하지만 더 작다. LinearModel.2가 더 적합도가 높은 모형이다라고 할 수 있다. 1880년대 스위스 지방의 출산율(Fertility)에 관한 사회경제적 요인들을 찾고, 설명변수들의 영향력을 점검할 때 Examination 변수를 제외한 모형을 사용하는 것이 바람직하다는 선택으로 이끌게 된다.
?BIC # Bayesian 정보량 기준 (BIC) 도움말 보기