Regression Analysis

Regression, Residual Analysis, Error, Residual, SSE, SSR, SST, R-Squared, Adjusted R-Square, VIF

Regression

๋‘ ๋ณ€์ˆ˜ ๊ฐ„์˜ ์ธ๊ณผ ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•  ๋•Œ ๊ฒฐ์ •๊ณ„์ˆ˜ ๊ตฌํ•˜๊ณ  ํšŒ๊ท€๋ถ„์„์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, "๋งˆ์ผ€ํŒ…์„ ๋งŽ์ด ํ• ์ˆ˜๋ก ๋งค์ถœ์•ก์ด ๋†’์•„์งˆ๊นŒ?" ์งˆ๋ฌธ์— ๋Œ€ํ•ด ๋‹ตํ•˜๊ธฐ ์œ„ํ•ด ํšŒ๊ท€๋ถ„์„์„ ์ˆ˜ํ–‰ํ•˜๋ฉด, ๋งค์ถœ์•ก KPI ๋‹ฌ์„ฑ์„ ์œ„ํ•ด ๋งˆ์ผ€ํŒ…์„ ๋ช‡ ๋ฒˆ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•˜๋Š”์ง€ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋‹ค.

ํšŒ๊ท€๋ถ„์„์€ 4๊ฐ€์ง€ ๊ฐ€์ •์ด ์žˆ๋‹ค. ์„ ํ˜•์„ฑ: ์ข…์†๋ณ€์ˆ˜ y์™€ ๋…๋ฆฝ๋ณ€์ˆ˜ x๊ฐ„์˜ ์„ ํ˜•์„ฑ์ด ์žˆ์–ด์•ผ ํ•œ๋‹ค. ๋…๋ฆฝ์„ฑ: ๋‹ค์ค‘ ํšŒ๊ท€ ๋ถ„์„ํ•  ๋•Œ ๋…๋ฆฝ๋ณ€์ˆ˜ x๊ฐ„์˜ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์—†์–ด์•ผ ํ•œ๋‹ค. ๋…๋ฆฝ์„ฑ์„ ๊ฐ€์ง„ ๊ฐ๊ฐ์˜ ๋…๋ฆฝ ๋ณ€์ˆ˜๋“ค์ด ์ข…์†๋ณ€์ˆ˜์˜ ๋ถ„์‚ฐ์„ ์„ค๋ช…ํ•˜์—ฌ์•ผ ์˜ํ–ฅ๋ ฅ์„ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋‹ค. ๋“ฑ๋ถ„์‚ฐ์„ฑ: ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ„์‚ฐ์ด ๊ฐ™์•„์•ผ ํ•œ๋‹ค. ์ •๊ทœ์„ฑ: ์ž”์ฐจ๊ฐ€ ์ •๊ทœ์„ฑ์„ ๋„์–ด์•ผ ํ•œ๋‹ค.

Residual Analysis

๋ชจ์ง‘๋‹จ์—์„œ ์–ป๋Š” ์˜ค์ฐจ๋Š” ๊ด€์ธก๋  ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ์— ํ‘œ๋ณธ์ง‘๋‹จ์—์„œ ์–ป์€ ์ž”์ฐจ๋ฅผ ์ด์šฉํ•˜์—ฌ ๋ถ„์„ํ•˜๋Š”๋ฐ, ์ด๊ฒƒ์„ ์ž”์ฐจ ๋ถ„์„์ด๋ผ๊ณ  ํ•œ๋‹ค.

Error vs Residual

์˜ค์ฐจ์™€ ์ž”์ฐจ์˜ ์ฐจ์ด๋Š” ๋ชจ์ง‘๋‹จ์—์„œ ์–ป์€ ๊ฐ’์ด๋ฉด ์˜ค์ฐจ, ํ‘œ๋ณธ์ง‘๋‹จ์—์„œ ์–ป์€ ๊ฐ’์ด๋ฉด ์ž”์ฐจ์ด๋‹ค.

์˜ค์ฐจ = ๋ชจ์ง‘๋‹จ์˜ ํšŒ๊ท€์‹์—์„œ ์˜ˆ์ธก๋œ ๊ฐ’ - ์‹ค์ œ ๊ด€์ธก๊ฐ’ ์ž”์ฐจ = ํ‘œ๋ณธ์ง‘๋‹จ์˜ ํšŒ๊ท€์‹์—์„œ ์˜ˆ์ธก๋œ ๊ฐ’ - ์‹ค์ œ ๊ด€์ธก๊ฐ’

ํšŒ๊ท€๋ถ„์„์—์„œ ์˜ค์ฐจํ•ญ๋“ค์€ ์ •๊ทœ์„ฑ(Normality), ๋“ฑ๋ถ„์‚ฐ์„ฑ(Homogeneity of Variance), ๋…๋ฆฝ์„ฑ(Independence)์— ๋Œ€ํ•œ ๊ฐ€์ •์ด ํ•„์š”ํ•˜๋ฉฐ ์ด ๊ฐ€์ •์ด ์„ฑ๋ฆฝํ•ด์•ผ ํšŒ๊ท€๋ถ„์„ ๊ฒฐ๊ณผ๊ฐ€ ํƒ€๋‹นํ•œ ๊ฒƒ์ด๋‹ค.

์ž”์ฐจ์™€ ์˜ˆ์ธก์น˜์˜ ์‚ฐ์ ๋„

์ž”์ฐจ์™€ ์˜ˆ์ธก์น˜์˜ ์‚ฐ์ ๋„์—์„œ ๋ถ€์ฑ„๋ชจ์–‘์ด๋ฉด ์˜ค์ฐจ๊ฐ€ ์˜ˆ์ธก์น˜๊ฐ€ ์ปค์ง์— ๋”ฐ๋ผ ์ปค์ง€๊ฑฐ๋‚˜ ์ž‘์•„์ง€๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•˜๋ฏ€๋กœ ๋“ฑ๋ถ„์‚ฐ ๊ฐ€์ •์„ ๋งŒ์กฑํ•˜์ง€ ๋ชปํ•œ๋‹ค. ๋“ฑ๋ถ„์‚ฐ ๊ฐ€์ •์„ ๋งŒ์กฑํ•˜์ง€ ๋ชปํ•  ๊ฒฝ์šฐ Y๋ฅผ ๋กœ๊ทธ๋ณ€ํ™˜ํ•˜์—ฌ ์ฒ˜๋ฆฌํ•ด๋ณผ ํ•„์š”๊ฐ€ ์žˆ๋‹ค.

์ž”์ฐจ์˜ ๋…๋ฆฝ์„ฑ

์ž”์ฐจ์˜ ๋…๋ฆฝ์„ฑ์€ ์ž”์ฐจ์™€ ๊ด€์ธก์น˜ ์ˆœ์„œ๊ฐ„์˜ ๊ทธ๋ž˜ํ”„ ํŒจํ„ด์„ ๋ณด๊ณ  ํŒ๋‹จํ•˜๋ฉฐ ๋…๋ฆฝ์„ฑ์ด ์กด์žฌํ•˜๋ ค๋ฉด ํŒจํ„ด์ด ์žˆ์œผ๋ฉด ์•ˆ๋œ๋‹ค. ๊ด€์ธก์น˜ ์ˆœ์„œ๊ฐ€ ์™ผ์ชฝ์—์„œ ์˜ค๋ฅธ์ชฝ์„ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ์ž”์ฐจ๊ฐ€ ๊ทœ์น™์ ์œผ๋กœ ์ค„์–ด๋“ค๊ฑฐ๋‚˜, ์ž”์ฐจ๊ฐ€ ์ž‘์€ ๊ฐ’์—์„œ ํฐ ๊ฐ’์œผ๋กœ ๊ฐ‘์ž๊ธฐ ๋ณ€๊ฒฝ๋˜๋Š” ๊ฒฝ์šฐ ์ž”์ฐจ๋Š” ๋…๋ฆฝ์ ์ด์ง€ ์•Š๋‹ค๊ณ  ๋ณธ๋‹ค.

SST(Total Sum of Squares)

์‹ค์ œ๊ฐ’ Y์˜ ์ด๋ณ€๋™(SST)์€ ํšŒ๊ท€์‹์œผ๋กœ ์„ค๋ช… ์•ˆ๋˜๋Š” ๋ณ€๋™ SSE์™€ ํšŒ๊ท€์‹์œผ๋กœ ์„ค๋ช… ๋˜๋Š” ๋ณ€๋™ SSR ํ•ฉ์ด๋‹ค. SST = SSE + SSR

SSE(Sum of Squares Residual Error)

ํšŒ๊ท€์‹์œผ๋กœ ์„ค๋ช… ์•ˆ๋˜๋Š” ๋ณ€๋™์ด๋‹ค. ํšŒ๊ท€์‹์œผ๋กœ ์˜ˆ์ธกํ•œ ๊ฐ’๊ณผ ์‹ค์ œ๊ฐ’ ๊ฐ„์˜ ์ฐจ์ด ์ œ๊ณฑํ•ฉ์ด๋‹ค. 0์— ๊ฐ€๊นŒ์šธ ์ˆ˜๋ก ์ข‹๋‹ค.

SSR(Sum of Squares Regression)

ํšŒ๊ท€์‹์œผ๋กœ ์„ค๋ช…๋˜๋Š” ๋ณ€๋™์ด๋‹ค. ํšŒ๊ท€์‹์œผ๋กœ ์˜ˆ์ธกํ•œ ๊ฐ’๊ณผ ์‹ค์ œ๊ฐ’์˜ ํ‰๊ท  ๊ฐ„์˜ ์ฐจ์ด ์ œ๊ณฑํ•ฉ์ด๋‹ค.

R-Square (Coefficient of determination, ๊ฒฐ์ •๊ณ„์ˆ˜)

R-Squared๋Š” 0 โ‰ค R-Squared โ‰ค 1 ๊ฐ’์„ ๊ฐ€์ง€๋ฉฐ, ํšŒ๊ท€์„ ์˜ ์„ค๋ช…๋ ฅ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. 1์— ๊ฐ€๊นŒ์šธ ์ˆ˜๋ก ์„ค๋ช…๋ ฅ์ด ์ข‹์•„์ง„๋‹ค. 1์— ๊ฐ€๊นŒ์šธ ์ˆ˜๋ก ์„ค๋ช…๋ ฅ์ด ์ข‹์•„์ง€๋Š” ์ด์œ ๋Š” SST ์ด๋ณ€๋™์—์„œ ํšŒ๊ท€์‹์œผ๋กœ ์„ค๋ช…๋˜๋Š” ์ •๋ณด์˜ ๋น„์œจ์ด ๋†’์•„์งˆ ์ˆ˜๋ก 1์— ๊ฐ€๊น๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ด๋ณ€๋™ ์ค‘ ํšŒ๊ท€์‹์œผ๋กœ ์„ค๋ช…๋˜๋Š” ๋ณ€๋™์˜ ๋น„์œจ์ด๋‹ค.

R-Squared = SSR/SST R-Squared = 1-(SSE/SST)

๋ฐ์ดํ„ฐ์˜ ํŽธ์ฐจ๊ฐ€ ํด์ˆ˜๋ก R-Squared ๊ฐ’์€ ์ž‘์•„์ง„๋‹ค. ์‹ค๋ฐ์ดํ„ฐ๋Š” R-Squared ๊ฐ’์ด ์ž‘์€ ๊ฒฝ์šฐ๊ฐ€ ๋Œ€๋ถ€๋ถ„์ด์ง€๋งŒ ๊ทธ๋ ‡๋‹ค๊ณ  ํ•ด์„œ ํšŒ๊ท€๋ถ„์„ ๊ฒฐ๊ณผ๊ฐ€ ๋ฏฟ์„ ์ˆ˜ ์—†๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค. ํšŒ๊ท€์„ ๊ณผ ์‚ฐํฌ๋„๋ฅผ ๋ณด๋ฉด์„œ ํšŒ๊ท€์„ ์„ ์™œ๊ณก์‹œํ‚ค๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ฐพ์•„์„œ ์ œ๊ฑฐํ•ด์•ผ ํ•œ๋‹ค.

Adjusted R-Square

R-Squared๋Š” ํšŒ๊ท€์‹์— ๋…๋ฆฝ๋ณ€์ˆ˜๊ฐ€ ์ถ”๊ฐ€๋  ์ˆ˜๋ก ์ ์  ์ปค์ง„๋‹ค. ์ด ์ ์„ ๋ณด์™„ํ•œ ๊ฒƒ์ด Adjusted R-Square ์ด๋‹ค. 1์— ๊ฐ€๊นŒ์šธ ์ˆ˜๋ก ์ข‹๋‹ค. X๋ณ€์ˆ˜์˜ ๊ฐœ์ˆ˜(k)๊ฐ€ ์ฆ๊ฐ€ํ•  ์ˆ˜๋ก Adjusted R-Square๋Š” ์ž‘์•„์ง„๋‹ค. Adjusted R-Square = 1 - (SSE/(n-k)) / (SST/(n-1))

One-hot encoding (Dummy variable) ์„ค๋ช…๋ณ€์ˆ˜๊ฐ€ ๋ช…๋ชฉํ˜• ๋ณ€์ˆ˜์ธ ๊ฒฝ์šฐ, One-hot encoding ์œผ๋กœ ๋ณ€ํ™˜ํ•ด์„œ ๋ชจ๋ธ๋งํ•œ๋‹ค.

Multicollinearity

๋‹ค์ค‘๊ณต์„ ์„ฑ์€ ๋…๋ฆฝ๋ณ€์ˆ˜๋“ค์ด ์„œ๋กœ ๋…๋ฆฝ์ด ์•„๋‹ˆ๋ผ ์ƒํ˜ธ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ๊ฐ•ํ•œ ๊ฒฝ์šฐ์— ๋ฐœ์ƒํ•œ๋‹ค. ๋…๋ฆฝ๋ณ€์ˆ˜์˜ ์ผ๋ถ€๊ฐ€ ๋‹ค๋ฅธ ๋…๋ฆฝ ๋ณ€์ˆ˜์˜ ์กฐํ•ฉ์œผ๋กœ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ๋Š” ๊ฒฝ์šฐ์ด๋‹ค.

๋‹ค์ค‘๊ณต์„ ์„ฑ์„ ํ™•์ธํ•˜๋Š” ๋ฐฉ๋ฒ•์€ X๋ณ€์ˆ˜๋“ค ๊ฐ„์˜ ์‚ฐ์ ๋„๋‚˜ ์ƒ๊ด€๊ณ„์ˆ˜๋ฅผ ๋ถ„์„ํ•ด ์ƒ๊ด€์„ฑ์ด ๋†’์€์ง€ ํ™•์ธํ•˜๋Š” ๋ฐฉ๋ฒ•๊ณผ VIF๊ฐ€ 10 ์ด์ƒ์ธ์ง€ ํ™•์ธํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค. VIF(Variance inflation Factor, ๋ถ„์‚ฐ ํŒฝ์ฐฝ๊ณ„์ˆ˜)๋Š” X๊ฐ€ 2๊ฐœ ์ด์ƒ์ผ ๊ฒฝ์šฐ, X๊ฐ„ ์ƒ๊ด€์„ฑ์„ ์‚ดํŽด๋ณผ ๋•Œ ์‚ฌ์šฉํ•˜๋ฉฐ, ๋ณดํ†ต 10์ด์ƒ์ผ ๊ฒฝ์šฐ ๋‹ค์ค‘๊ณต์„ ์„ฑ์ด ์กด์žฌํ•œ๋‹ค๊ณ  ๋ณธ๋‹ค.

๋‹ค์ค‘๊ณต์„ ์„ฑ์„ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๋‹ค์ค‘๊ณต์„ ์„ฑ์ด ์žˆ๋Š” ๋…๋ฆฝ๋ณ€์ˆ˜ ํ•˜๋‚˜๋ฅผ ์ œ๊ฑฐํ•˜๊ฑฐ๋‚˜ PCA(Principal Component Analysis, ์ฃผ์„ฑ๋ถ„ ๋ถ„์„)๋ฅผ ํ†ตํ•ด ์„œ๋กœ ๋…๋ฆฝ์ธ ์ฃผ์„ฑ๋ถ„์„ ์‚ฌ์šฉํ•˜์—ฌ ํšŒ๊ท€๋ถ„์„์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.

ํšŒ๊ท€๋ชจ๋ธ์˜ ํ‰๊ฐ€์ง€ํ‘œ

MAE(Mean Absolute Error)

์ž”์ฐจ์˜ ์ ˆ๋Œ€๊ฐ’์— ๋Œ€ํ•œ ํ‰๊ท ์„ ๊ตฌํ•œ๋‹ค. MAE๊ฐ€ ์ž‘์œผ๋ฉด ๋ชจ๋ธ ์˜ˆ์ธก ์„ฑ๋Šฅ์ด ๋†’์€ ๊ฒƒ์ด๊ณ , ํฌ๋ฉด ์„ฑ๋Šฅ์ด ๋‚ฎ์€ ๊ฒƒ์ด๋‹ค. MAE๊ฐ€ 0์ด๋ฉด ์™„๋ฒฝํ•œ ์—์ธก ๋ณ€์ˆ˜์ด์ง€๋งŒ ๊ฑฐ์˜ ๋ฐœ์ƒํ•˜์ง€ ์•Š๋Š”๋‹ค.

๋งค์ถœ๊ธˆ์•ก ์˜ˆ์ธก์—์„œ 1000์ด๋ผ๋ฉด 1000์›์„ ๋†’๊ฒŒ ์˜ˆ์ธกํ•˜๋Š”์ง€ ๋‚ฎ๊ฒŒ ์˜ˆ์ธกํ•˜๋Š”์ง€ ํŒŒ์•…ํ•˜๊ธฐ ํž˜๋“ค๋‹ค.

MAPE(Mean Absolute Percent Error)

์‹ค์ œ๊ฐ’ ๋Œ€๋น„ ์ž”์ฐจ์˜ ์ ˆ๋Œ€๊ฐ’๋“ค์˜ ํ‰๊ท  * 100 ์œผ๋กœ MAE๋ฅผ ๋น„์œจ(%)๋กœ ํ‘œํ˜„ํ•œ ๊ฒƒ์ด๋‹ค. ์‚ผ์„ฑ์ „์ž ์ฃผ๊ฐ€ ์˜ˆ์ธก ๋ชจ๋ธ์˜ MAPE๊ฐ€ 3%์ด๊ณ  ์นด์นด์˜ค ์ฃผ๊ฐ€ ์˜ˆ์ธก ๋ชจ๋ธ์˜ MAPE๊ฐ€ 5% ๋ผ๋ฉด ์‚ผ์„ฑ์ „์ž ๊ฐ€๊ฒฉ์„ ์˜ˆ์ธกํ•˜๋Š” ๋ชจ๋ธ์˜ MAPE๊ฐ€ ๋” ์šฐ์ˆ˜ํ•œ ๊ฒƒ์œผ๋กœ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋‹ค.

MAPE๋Š” ๊ณต์‹์—์„œ ์•Œ ์ˆ˜ ์žˆ๋“ฏ์ด ์‹ค์ œ ๊ฐ’์— 0์ด ํฌํ•จ๋  ๊ฒฝ์šฐ ๊ณ„์‚ฐํ•  ์ˆ˜ ์—†๋‹ค.

MSE(Mean Squared Error)

์ž”์ฐจ์˜ ์ œ๊ณฑ์— ๋Œ€ํ•œ ํ‰๊ท ์ด๋‹ค. ์ž”์ฐจ๋ฅผ ์ œ๊ณฑํ•˜๊ธฐ ๋•Œ๋ฌธ์— 1๋ณด๋‹ค ์ž‘์€ ๊ฐ’์€ ๋” ์ž‘์•„์ง€๊ณ  ํฐ ๊ฐ’์€ ๋” ์ปค์ง€๋ฉฐ ์ด์ƒ์น˜์— ๋” ๋ฏผ๊ฐํ•˜๋‹ค.

RMSE(Root Mean Squared Error)

์ž”์ฐจ์˜ ์ œ๊ณฑ์— ๋Œ€ํ•œ ํ‰๊ท  ๊ฐ’์— ๋ฃจํŠธ๋ฅผ ์”Œ์šด ๊ฐ’์ด๋‹ค. ์ œ๊ณฑํ•ด์„œ ๋ฃจํŠธ๋ฅผ ์ทจํ•˜๊ธฐ ๋•Œ๋ฌธ์— MSE์— ๋น„ํ•ด์„œ ์™œ๊ณก์ด ๋œํ•˜๋‹ค.

ํšŒ๊ท€๋ชจํ˜• ๋ชจ๋ธ๋ง ๊ณผ์ •

  • ๋…๋ฆฝ๋ณ€์ˆ˜์™€ ์ข…์†๋ณ€์ˆ˜์˜ ์ฐจํŠธ๋ฅผ ๊ทธ๋ ค๋ณธ๋‹ค.

  • ์—ฐ์†ํ˜• ๋ณ€์ˆ˜๋ฅผ ์„ ํƒํ•˜์—ฌ ๊ธฐ์ดˆ ํ†ต๊ณ„๋Ÿ‰์„ ํ™•์ธํ•˜๊ณ  ํŽธ์ฐจ๊ฐ€ ํฌ๋‹ค๋ฉด ์ค„์ด๊ธฐ ์œ„ํ•ด ๋กœ๊ทธ๋ณ€ํ™˜ํ•ด์„œ ์ „ํ›„ ํŽธ์ฐจ๊ฐ€ ์ค„์—ˆ๋Š”์ง€ ํ™•์ธํ•˜๋‹ค. ํŽธ์ฐจ๊ฐ€ ์ค„์—ˆ๋‹ค๋ฉด ์ •๊ทœ๋ถ„ํฌ์— ๋” ๊ฐ€๊นŒ์›Œ์ง„ ๊ฒƒ์ด๋‹ค.

  • ๊ธฐ์ดˆํ†ต๊ณ„์™€ Correlation ๋ถ„์„์œผ๋กœ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ํ™•์ธํ•œ๋‹ค.

  • ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„ํ• ํ•˜์—ฌ ํšŒ๊ท€๋ถ„์„ ๋ชจ๋ธ๋ง์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.

    • ๋‹ค์ค‘์„ ํ˜•ํšŒ๊ท€ ๋ถ„์„์ด๋ฉด, ์„ค๋ช…๋ณ€์ˆ˜๋“ค์˜ P-value๋ฅผ ํ™•์ธํ•˜๊ณ  ์œ ์˜์„ฑ์ด ๋‚ฎ์€ ๋ณ€์ˆ˜๋Š” ์ œ๊ฑฐํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์œ ์˜์ˆ˜์ค€ 0.05 ๋ณด๋‹ค ํฐ P-value๋ฅผ ๊ฐ€์ง„ ์„ค๋ช…๋ณ€์ˆ˜๋Š” ์ œ๊ฑฐํ•œ๋‹ค.

  • Evaluation์„ ์ˆ˜ํ–‰ํ•˜๊ณ , R-Square, MAPE ๋“ฑ์„ ํ™•์ธํ•œ๋‹ค.

  • ์ž”์ฐจ์™€ ์˜ˆ์ธก๊ฐ’์˜ ๋“ฑ๋ถ„์‚ฐ์„ฑ์„ ํ™•์ธํ•˜๊ณ , ์ž”์ฐจ์™€ ๋ˆ„์ ํ™•๋ฅ ๋ถ„ํฌ์˜ ์ •๊ทœ์„ฑ์„ ํ™•์ธํ•ด์•ผ ํ•œ๋‹ค.

    • ์„ค๋ช…๋ณ€์ˆ˜๊ฐ€ 2๊ฐœ ์ด์ƒ์ด๋ฉด VIF๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ  ๋‹ค์ค‘๊ณต์„ ์„ฑ์„ ํ™•์ธํ•œ๋‹ค. ์ƒ๊ด€๊ณ„์ˆ˜๊ฐ€ 0.9์ด์ƒ์ด๊ฑฐ๋‚˜ VIF๊ฐ€ 10์ด์ƒ์ด๋ฉด ๋‹ค์ค‘๊ณต์„ ์„ฑ์ด ์กด์žฌํ•˜๋Š” ๊ฒƒ์ด๋ฉฐ ์„ค๋ช…๋ณ€์ˆ˜๋ฅผ ํ•˜๋‚˜๋ฅผ ์ œ๊ฑฐํ•œ๋‹ค. VIF๊ฐ€ 1์ด๋ฉด ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์—†๋Š” ๊ฒƒ์ด๋‹ค. ๋‹ค์ค‘ ๊ณต์„ ์„ฑ์€ ์„ค๋ช…๋ณ€์ˆ˜์˜ ํ†ต๊ณ„์  ์œ ์˜์„ฑ์„ ์•…ํ™”์‹œํ‚จ๋‹ค. ์˜ˆ์ธก ์ •ํ™•๋„์— ํฐ ์˜ํ–ฅ์„ ์ฃผ์ง€๋Š” ์•Š์ง€๋งŒ ํ•ด์„์˜ ํ’ˆ์งˆ์„ ์ €ํ•˜์‹œํ‚จ๋‹ค.

  • ํšŒ๊ท€๋ถ„์„ ๊ฒฐ๊ณผ๋ฅผ ํ•ด์„ํ•œ๋‹ค.

    • ํšŒ๊ท€๋ถ„์„ ๊ฒฐ๊ณผ [์„ค๋ช…๋ณ€์ˆ˜]์™€ [์ข…์†๋ณ€์ˆ˜]๋Š” ์Œ์˜ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์žˆ๊ณ , [์„ค๋ช…๋ณ€์ˆ˜]๊ฐ€ [์ข…์†๋ณ€์ˆ˜]์— ๋Œ€ํ•ด ์•ฝ XX% ์„ค๋ช…๋ ฅ์„ ๊ฐ€์ง„ ๊ฒƒ์„ ํ™•์ธํ–ˆ๋‹ค.

  • ์„ค๋ช…๋ ฅ์ด ๋‚ฎ๋‹ค๋ฉด ์„ค๋ช…๋ณ€์ˆ˜๋ฅผ ๋” ๋ฐœ๊ตดํ•˜์—ฌ ์„ค๋ช…๋ ฅ์„ ๋†’์ผ ์ˆ˜ ์žˆ๋Š” ๋ฐฉ์•ˆ์„ ๊ฒ€ํ† ํ•œ๋‹ค.

์ฐธ๊ณ ์ž๋ฃŒ

https://vitalflux.com/linear-regression-explained-python-sklearn-examples/ https://www.dataquest.io/blog/understanding-regression-error-metrics/

Last updated

Was this helpful?