Regression Analysis
Regression, Residual Analysis, Error, Residual, SSE, SSR, SST, R-Squared, Adjusted R-Square, VIF
Regression
๋ ๋ณ์ ๊ฐ์ ์ธ๊ณผ ๊ด๊ณ๋ฅผ ํ์ ํ ๋ ๊ฒฐ์ ๊ณ์ ๊ตฌํ๊ณ ํ๊ท๋ถ์์ ์ํํ๋ค.
์๋ฅผ ๋ค์ด, "๋ง์ผํ ์ ๋ง์ด ํ ์๋ก ๋งค์ถ์ก์ด ๋์์ง๊น?" ์ง๋ฌธ์ ๋ํด ๋ตํ๊ธฐ ์ํด ํ๊ท๋ถ์์ ์ํํ๋ฉด, ๋งค์ถ์ก KPI ๋ฌ์ฑ์ ์ํด ๋ง์ผํ ์ ๋ช ๋ฒ ์ํํด์ผ ํ๋์ง ์์ธกํ ์ ์๋ค.
ํ๊ท๋ถ์์ 4๊ฐ์ง ๊ฐ์ ์ด ์๋ค. ์ ํ์ฑ: ์ข ์๋ณ์ y์ ๋ ๋ฆฝ๋ณ์ x๊ฐ์ ์ ํ์ฑ์ด ์์ด์ผ ํ๋ค. ๋ ๋ฆฝ์ฑ: ๋ค์ค ํ๊ท ๋ถ์ํ ๋ ๋ ๋ฆฝ๋ณ์ x๊ฐ์ ์๊ด๊ด๊ณ๊ฐ ์์ด์ผ ํ๋ค. ๋ ๋ฆฝ์ฑ์ ๊ฐ์ง ๊ฐ๊ฐ์ ๋ ๋ฆฝ ๋ณ์๋ค์ด ์ข ์๋ณ์์ ๋ถ์ฐ์ ์ค๋ช ํ์ฌ์ผ ์ํฅ๋ ฅ์ ์์ธกํ ์ ์๋ค. ๋ฑ๋ถ์ฐ์ฑ: ๋ฐ์ดํฐ๊ฐ ๋ถ์ฐ์ด ๊ฐ์์ผ ํ๋ค. ์ ๊ท์ฑ: ์์ฐจ๊ฐ ์ ๊ท์ฑ์ ๋์ด์ผ ํ๋ค.
Residual Analysis
๋ชจ์ง๋จ์์ ์ป๋ ์ค์ฐจ๋ ๊ด์ธก๋ ์ ์๊ธฐ ๋๋ฌธ์ ํ๋ณธ์ง๋จ์์ ์ป์ ์์ฐจ๋ฅผ ์ด์ฉํ์ฌ ๋ถ์ํ๋๋ฐ, ์ด๊ฒ์ ์์ฐจ ๋ถ์์ด๋ผ๊ณ ํ๋ค.
Error vs Residual
์ค์ฐจ์ ์์ฐจ์ ์ฐจ์ด๋ ๋ชจ์ง๋จ์์ ์ป์ ๊ฐ์ด๋ฉด ์ค์ฐจ, ํ๋ณธ์ง๋จ์์ ์ป์ ๊ฐ์ด๋ฉด ์์ฐจ์ด๋ค.
์ค์ฐจ = ๋ชจ์ง๋จ์ ํ๊ท์์์ ์์ธก๋ ๊ฐ - ์ค์ ๊ด์ธก๊ฐ ์์ฐจ = ํ๋ณธ์ง๋จ์ ํ๊ท์์์ ์์ธก๋ ๊ฐ - ์ค์ ๊ด์ธก๊ฐ
ํ๊ท๋ถ์์์ ์ค์ฐจํญ๋ค์ ์ ๊ท์ฑ(Normality), ๋ฑ๋ถ์ฐ์ฑ(Homogeneity of Variance), ๋ ๋ฆฝ์ฑ(Independence)์ ๋ํ ๊ฐ์ ์ด ํ์ํ๋ฉฐ ์ด ๊ฐ์ ์ด ์ฑ๋ฆฝํด์ผ ํ๊ท๋ถ์ ๊ฒฐ๊ณผ๊ฐ ํ๋นํ ๊ฒ์ด๋ค.
์์ฐจ์ ์์ธก์น์ ์ฐ์ ๋
์์ฐจ์ ์์ธก์น์ ์ฐ์ ๋์์ ๋ถ์ฑ๋ชจ์์ด๋ฉด ์ค์ฐจ๊ฐ ์์ธก์น๊ฐ ์ปค์ง์ ๋ฐ๋ผ ์ปค์ง๊ฑฐ๋ ์์์ง๋ ๊ฒ์ ์๋ฏธํ๋ฏ๋ก ๋ฑ๋ถ์ฐ ๊ฐ์ ์ ๋ง์กฑํ์ง ๋ชปํ๋ค. ๋ฑ๋ถ์ฐ ๊ฐ์ ์ ๋ง์กฑํ์ง ๋ชปํ ๊ฒฝ์ฐ Y๋ฅผ ๋ก๊ทธ๋ณํํ์ฌ ์ฒ๋ฆฌํด๋ณผ ํ์๊ฐ ์๋ค.

์์ฐจ์ ๋
๋ฆฝ์ฑ
์์ฐจ์ ๋ ๋ฆฝ์ฑ์ ์์ฐจ์ ๊ด์ธก์น ์์๊ฐ์ ๊ทธ๋ํ ํจํด์ ๋ณด๊ณ ํ๋จํ๋ฉฐ ๋ ๋ฆฝ์ฑ์ด ์กด์ฌํ๋ ค๋ฉด ํจํด์ด ์์ผ๋ฉด ์๋๋ค. ๊ด์ธก์น ์์๊ฐ ์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ์ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์์ฐจ๊ฐ ๊ท์น์ ์ผ๋ก ์ค์ด๋ค๊ฑฐ๋, ์์ฐจ๊ฐ ์์ ๊ฐ์์ ํฐ ๊ฐ์ผ๋ก ๊ฐ์๊ธฐ ๋ณ๊ฒฝ๋๋ ๊ฒฝ์ฐ ์์ฐจ๋ ๋ ๋ฆฝ์ ์ด์ง ์๋ค๊ณ ๋ณธ๋ค.


SST(Total Sum of Squares)
์ค์ ๊ฐ Y์ ์ด๋ณ๋(SST)์ ํ๊ท์์ผ๋ก ์ค๋ช ์๋๋ ๋ณ๋ SSE์ ํ๊ท์์ผ๋ก ์ค๋ช ๋๋ ๋ณ๋ SSR ํฉ์ด๋ค. SST = SSE + SSR

SSE(Sum of Squares Residual Error)
ํ๊ท์์ผ๋ก ์ค๋ช ์๋๋ ๋ณ๋์ด๋ค. ํ๊ท์์ผ๋ก ์์ธกํ ๊ฐ๊ณผ ์ค์ ๊ฐ ๊ฐ์ ์ฐจ์ด ์ ๊ณฑํฉ์ด๋ค. 0์ ๊ฐ๊น์ธ ์๋ก ์ข๋ค.
SSR(Sum of Squares Regression)
ํ๊ท์์ผ๋ก ์ค๋ช ๋๋ ๋ณ๋์ด๋ค. ํ๊ท์์ผ๋ก ์์ธกํ ๊ฐ๊ณผ ์ค์ ๊ฐ์ ํ๊ท ๊ฐ์ ์ฐจ์ด ์ ๊ณฑํฉ์ด๋ค.
R-Square (Coefficient of determination, ๊ฒฐ์ ๊ณ์)
R-Squared๋ 0 โค R-Squared โค 1 ๊ฐ์ ๊ฐ์ง๋ฉฐ, ํ๊ท์ ์ ์ค๋ช ๋ ฅ์ ๋ํ๋ธ๋ค. 1์ ๊ฐ๊น์ธ ์๋ก ์ค๋ช ๋ ฅ์ด ์ข์์ง๋ค. 1์ ๊ฐ๊น์ธ ์๋ก ์ค๋ช ๋ ฅ์ด ์ข์์ง๋ ์ด์ ๋ SST ์ด๋ณ๋์์ ํ๊ท์์ผ๋ก ์ค๋ช ๋๋ ์ ๋ณด์ ๋น์จ์ด ๋์์ง ์๋ก 1์ ๊ฐ๊น๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ณ๋ ์ค ํ๊ท์์ผ๋ก ์ค๋ช ๋๋ ๋ณ๋์ ๋น์จ์ด๋ค.
R-Squared = SSR/SST R-Squared = 1-(SSE/SST)
๋ฐ์ดํฐ์ ํธ์ฐจ๊ฐ ํด์๋ก R-Squared ๊ฐ์ ์์์ง๋ค. ์ค๋ฐ์ดํฐ๋ R-Squared ๊ฐ์ด ์์ ๊ฒฝ์ฐ๊ฐ ๋๋ถ๋ถ์ด์ง๋ง ๊ทธ๋ ๋ค๊ณ ํด์ ํ๊ท๋ถ์ ๊ฒฐ๊ณผ๊ฐ ๋ฏฟ์ ์ ์๋ ๊ฒ์ ์๋๋ค. ํ๊ท์ ๊ณผ ์ฐํฌ๋๋ฅผ ๋ณด๋ฉด์ ํ๊ท์ ์ ์๊ณก์ํค๋ ๋ฐ์ดํฐ๋ฅผ ์ฐพ์์ ์ ๊ฑฐํด์ผ ํ๋ค.
Adjusted R-Square
R-Squared๋ ํ๊ท์์ ๋ ๋ฆฝ๋ณ์๊ฐ ์ถ๊ฐ๋ ์๋ก ์ ์ ์ปค์ง๋ค. ์ด ์ ์ ๋ณด์ํ ๊ฒ์ด Adjusted R-Square ์ด๋ค. 1์ ๊ฐ๊น์ธ ์๋ก ์ข๋ค. X๋ณ์์ ๊ฐ์(k)๊ฐ ์ฆ๊ฐํ ์๋ก Adjusted R-Square๋ ์์์ง๋ค. Adjusted R-Square = 1 - (SSE/(n-k)) / (SST/(n-1))
One-hot encoding (Dummy variable) ์ค๋ช ๋ณ์๊ฐ ๋ช ๋ชฉํ ๋ณ์์ธ ๊ฒฝ์ฐ, One-hot encoding ์ผ๋ก ๋ณํํด์ ๋ชจ๋ธ๋งํ๋ค.
Multicollinearity
๋ค์ค๊ณต์ ์ฑ์ ๋ ๋ฆฝ๋ณ์๋ค์ด ์๋ก ๋ ๋ฆฝ์ด ์๋๋ผ ์ํธ ์๊ด๊ด๊ณ๊ฐ ๊ฐํ ๊ฒฝ์ฐ์ ๋ฐ์ํ๋ค. ๋ ๋ฆฝ๋ณ์์ ์ผ๋ถ๊ฐ ๋ค๋ฅธ ๋ ๋ฆฝ ๋ณ์์ ์กฐํฉ์ผ๋ก ํํ๋ ์ ์๋ ๊ฒฝ์ฐ์ด๋ค.
๋ค์ค๊ณต์ ์ฑ์ ํ์ธํ๋ ๋ฐฉ๋ฒ์ X๋ณ์๋ค ๊ฐ์ ์ฐ์ ๋๋ ์๊ด๊ณ์๋ฅผ ๋ถ์ํด ์๊ด์ฑ์ด ๋์์ง ํ์ธํ๋ ๋ฐฉ๋ฒ๊ณผ VIF๊ฐ 10 ์ด์์ธ์ง ํ์ธํ๋ ๋ฐฉ๋ฒ์ด ์๋ค. VIF(Variance inflation Factor, ๋ถ์ฐ ํฝ์ฐฝ๊ณ์)๋ X๊ฐ 2๊ฐ ์ด์์ผ ๊ฒฝ์ฐ, X๊ฐ ์๊ด์ฑ์ ์ดํด๋ณผ ๋ ์ฌ์ฉํ๋ฉฐ, ๋ณดํต 10์ด์์ผ ๊ฒฝ์ฐ ๋ค์ค๊ณต์ ์ฑ์ด ์กด์ฌํ๋ค๊ณ ๋ณธ๋ค.
๋ค์ค๊ณต์ ์ฑ์ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ์ ๋ค์ค๊ณต์ ์ฑ์ด ์๋ ๋ ๋ฆฝ๋ณ์ ํ๋๋ฅผ ์ ๊ฑฐํ๊ฑฐ๋ PCA(Principal Component Analysis, ์ฃผ์ฑ๋ถ ๋ถ์)๋ฅผ ํตํด ์๋ก ๋ ๋ฆฝ์ธ ์ฃผ์ฑ๋ถ์ ์ฌ์ฉํ์ฌ ํ๊ท๋ถ์์ ์ํํ๋ค.
ํ๊ท๋ชจ๋ธ์ ํ๊ฐ์งํ
MAE(Mean Absolute Error)
์์ฐจ์ ์ ๋๊ฐ์ ๋ํ ํ๊ท ์ ๊ตฌํ๋ค. MAE๊ฐ ์์ผ๋ฉด ๋ชจ๋ธ ์์ธก ์ฑ๋ฅ์ด ๋์ ๊ฒ์ด๊ณ , ํฌ๋ฉด ์ฑ๋ฅ์ด ๋ฎ์ ๊ฒ์ด๋ค. MAE๊ฐ 0์ด๋ฉด ์๋ฒฝํ ์์ธก ๋ณ์์ด์ง๋ง ๊ฑฐ์ ๋ฐ์ํ์ง ์๋๋ค.
๋งค์ถ๊ธ์ก ์์ธก์์ 1000์ด๋ผ๋ฉด 1000์์ ๋๊ฒ ์์ธกํ๋์ง ๋ฎ๊ฒ ์์ธกํ๋์ง ํ์ ํ๊ธฐ ํ๋ค๋ค.


MAPE(Mean Absolute Percent Error)
์ค์ ๊ฐ ๋๋น ์์ฐจ์ ์ ๋๊ฐ๋ค์ ํ๊ท * 100 ์ผ๋ก MAE๋ฅผ ๋น์จ(%)๋ก ํํํ ๊ฒ์ด๋ค. ์ผ์ฑ์ ์ ์ฃผ๊ฐ ์์ธก ๋ชจ๋ธ์ MAPE๊ฐ 3%์ด๊ณ ์นด์นด์ค ์ฃผ๊ฐ ์์ธก ๋ชจ๋ธ์ MAPE๊ฐ 5% ๋ผ๋ฉด ์ผ์ฑ์ ์ ๊ฐ๊ฒฉ์ ์์ธกํ๋ ๋ชจ๋ธ์ MAPE๊ฐ ๋ ์ฐ์ํ ๊ฒ์ผ๋ก ํด์ํ ์ ์๋ค.
MAPE๋ ๊ณต์์์ ์ ์ ์๋ฏ์ด ์ค์ ๊ฐ์ 0์ด ํฌํจ๋ ๊ฒฝ์ฐ ๊ณ์ฐํ ์ ์๋ค.


MSE(Mean Squared Error)
์์ฐจ์ ์ ๊ณฑ์ ๋ํ ํ๊ท ์ด๋ค. ์์ฐจ๋ฅผ ์ ๊ณฑํ๊ธฐ ๋๋ฌธ์ 1๋ณด๋ค ์์ ๊ฐ์ ๋ ์์์ง๊ณ ํฐ ๊ฐ์ ๋ ์ปค์ง๋ฉฐ ์ด์์น์ ๋ ๋ฏผ๊ฐํ๋ค.


RMSE(Root Mean Squared Error)
์์ฐจ์ ์ ๊ณฑ์ ๋ํ ํ๊ท ๊ฐ์ ๋ฃจํธ๋ฅผ ์์ด ๊ฐ์ด๋ค. ์ ๊ณฑํด์ ๋ฃจํธ๋ฅผ ์ทจํ๊ธฐ ๋๋ฌธ์ MSE์ ๋นํด์ ์๊ณก์ด ๋ํ๋ค.
ํ๊ท๋ชจํ ๋ชจ๋ธ๋ง ๊ณผ์
๋ ๋ฆฝ๋ณ์์ ์ข ์๋ณ์์ ์ฐจํธ๋ฅผ ๊ทธ๋ ค๋ณธ๋ค.
์ฐ์ํ ๋ณ์๋ฅผ ์ ํํ์ฌ ๊ธฐ์ด ํต๊ณ๋์ ํ์ธํ๊ณ ํธ์ฐจ๊ฐ ํฌ๋ค๋ฉด ์ค์ด๊ธฐ ์ํด ๋ก๊ทธ๋ณํํด์ ์ ํ ํธ์ฐจ๊ฐ ์ค์๋์ง ํ์ธํ๋ค. ํธ์ฐจ๊ฐ ์ค์๋ค๋ฉด ์ ๊ท๋ถํฌ์ ๋ ๊ฐ๊น์์ง ๊ฒ์ด๋ค.
๊ธฐ์ดํต๊ณ์ Correlation ๋ถ์์ผ๋ก ์๊ด๊ด๊ณ๋ฅผ ํ์ธํ๋ค.
๋ฐ์ดํฐ๋ฅผ ๋ถํ ํ์ฌ ํ๊ท๋ถ์ ๋ชจ๋ธ๋ง์ ์ํํ๋ค.
๋ค์ค์ ํํ๊ท ๋ถ์์ด๋ฉด, ์ค๋ช ๋ณ์๋ค์ P-value๋ฅผ ํ์ธํ๊ณ ์ ์์ฑ์ด ๋ฎ์ ๋ณ์๋ ์ ๊ฑฐํ๋ค. ์๋ฅผ ๋ค์ด ์ ์์์ค 0.05 ๋ณด๋ค ํฐ P-value๋ฅผ ๊ฐ์ง ์ค๋ช ๋ณ์๋ ์ ๊ฑฐํ๋ค.
Evaluation์ ์ํํ๊ณ , R-Square, MAPE ๋ฑ์ ํ์ธํ๋ค.
์์ฐจ์ ์์ธก๊ฐ์ ๋ฑ๋ถ์ฐ์ฑ์ ํ์ธํ๊ณ , ์์ฐจ์ ๋์ ํ๋ฅ ๋ถํฌ์ ์ ๊ท์ฑ์ ํ์ธํด์ผ ํ๋ค.
์ค๋ช ๋ณ์๊ฐ 2๊ฐ ์ด์์ด๋ฉด VIF๋ฅผ ๊ณ์ฐํ๊ณ ๋ค์ค๊ณต์ ์ฑ์ ํ์ธํ๋ค. ์๊ด๊ณ์๊ฐ 0.9์ด์์ด๊ฑฐ๋ VIF๊ฐ 10์ด์์ด๋ฉด ๋ค์ค๊ณต์ ์ฑ์ด ์กด์ฌํ๋ ๊ฒ์ด๋ฉฐ ์ค๋ช ๋ณ์๋ฅผ ํ๋๋ฅผ ์ ๊ฑฐํ๋ค. VIF๊ฐ 1์ด๋ฉด ์๊ด๊ด๊ณ๊ฐ ์๋ ๊ฒ์ด๋ค. ๋ค์ค ๊ณต์ ์ฑ์ ์ค๋ช ๋ณ์์ ํต๊ณ์ ์ ์์ฑ์ ์ ํ์ํจ๋ค. ์์ธก ์ ํ๋์ ํฐ ์ํฅ์ ์ฃผ์ง๋ ์์ง๋ง ํด์์ ํ์ง์ ์ ํ์ํจ๋ค.
ํ๊ท๋ถ์ ๊ฒฐ๊ณผ๋ฅผ ํด์ํ๋ค.
ํ๊ท๋ถ์ ๊ฒฐ๊ณผ [์ค๋ช ๋ณ์]์ [์ข ์๋ณ์]๋ ์์ ์๊ด๊ด๊ณ๊ฐ ์๊ณ , [์ค๋ช ๋ณ์]๊ฐ [์ข ์๋ณ์]์ ๋ํด ์ฝ XX% ์ค๋ช ๋ ฅ์ ๊ฐ์ง ๊ฒ์ ํ์ธํ๋ค.
์ค๋ช ๋ ฅ์ด ๋ฎ๋ค๋ฉด ์ค๋ช ๋ณ์๋ฅผ ๋ ๋ฐ๊ตดํ์ฌ ์ค๋ช ๋ ฅ์ ๋์ผ ์ ์๋ ๋ฐฉ์์ ๊ฒํ ํ๋ค.
์ฐธ๊ณ ์๋ฃ
https://vitalflux.com/linear-regression-explained-python-sklearn-examples/ https://www.dataquest.io/blog/understanding-regression-error-metrics/
Last updated
Was this helpful?