ANOVA

F-test, ANOVA, ANOVA 사후검정

F-test

F-검증은 3개 집단 이상을 비교할 때 활용하는 검증 방식으로, 분산의 차이가 통계적으로 유의한지 확인하는 검증 방식이다.

유의수준 0.05에서 3개 집단의 차이를 확인할 때 A-B-C 간의 차이를 한번에 비교하는 것이 F검증이라면, A-B, B-C, C-A로 3번으로 나눠서 검증하는 것이 t-test 이다. 여러 번 t-test하면 1종 오류가 증가한다.

ANOVA

2 sample t-test의 확장으로 t-test와 마찬가지로 정규성, 등분산 가정하에 분석한다. 표본 집단이 서로 다른 집단 3개 이상의 모집단으로부터 추출한 경우에 사용하는 분석 방법이다. 하지만, 2개 이상의 집단에 대한 평균 비교도 가능하다.

F-value가 검정통계량이고,

가설은 귀무가설은 모든 그룹의 평균이 같다. 대립가설은 적어도 한 그룹의 평균이 다르다. (어떤 그룹이 다른지는 사후검증을 통해 가능)

유의수준이 0.05이면, p-Value가 0.05 보다 크면 귀무가설을 기각하지 못한다.

평균을 구하는데 분산 분석인 이유는 F-value를 계산하는데 분산을 사용하기 때문이다.

예) 연령대 별 선호도 비교 (10대, 20대~30대, 40대 이상 )

결과 10대 선호도 평균 5 20대 ~ 30대 선호도 평균 6 40대 이상 선호도 평균 8 그룹간 F값 7 p-value 0.002

해석 선호도의 평균값이 연령대가 높을수록 높아지는 것을 확인할 수 있고, 통계적으로 p-value가 0에 가까우므로 유의한 차이가 있다고 판단된다. 그러나 세부적으로 그룹간의 차이는 확인할 수 없으므로 ANOVA 사후검정으로 다중비교를 실시한다.

ANOVA 사후검정

차이가 있다면 어떤게 차이가 있는지 사후 검정으로 다중비교한다. ANOVA의 대립가설은 1개 이상의 평균이 다르다 이므로, 어떤 그룹의 평균이 같고 다른지 다중비교를 통해 확인할 수 있다. 사후분석 방법으로는 Duncan (던칸), Tukey (터키), Scheffe (쉐페) 가 있다.

Duncan 은 조금만 차이가 나도 차이 난다고 분석하며, Scheffe 는 확실이 차이가 나야 차이가 난다고 분석한다.

Tukey 는 그 중간이다.

ANOVA 일원 vs 다원

그룹이 몇 개인지 즉 독립변수의 수가 몇개인지에 따라 일원/이원/다원 분산 분석으로 분류한다. 일원분산분석(One-Way ANOVA) 단일요인 (독립변수가 1개)

예) 요일별로 출고량의 차이가 있는가? 창고 크기에 따라 출고량의 차이가 있는가?

이원분산분석(Two-Way ANOVA) 다수의 요인이 조합형태로 구성(독립변수가 2개 이상)

예) 창고 크기를 고려하면 출고량이 요일별로 차이가 있는가? 창고 크기를 고려하면 출고량이 주중/주말에 따라 차이가 있는가? 다원분산분석(Multifactor ANOVA) 독립변수가 3개 이상

t-test vs ANOVA

공통점 귀무가설: 모든 그룹의 평균이 같다. 대립가설: 평균이 다른 그룹이 존재한다.

차이점

t-test X변수가 1개이다. (X1) X변수 내 그룹이 2개이다. (남/여, 유/무)

ANOVA X변수가 여러 개 가능하다. (X1, X2, X3) X변수 내 그룹이 2개 초과해도 된다. ( 연령대: 10대/20대, 상/중/하)

Last updated