scikit-learn
scikit-learn
Data Preparation
๋ผ์ด๋ธ๋ฌ๋ฆฌ ๊ฐ์ ธ์ค๊ธฐ
๋ฐ์ดํฐ์ธํธ ๋ก๋
Data Exploratory Analysis
๋ฐ์ดํฐ ํ์ ๋ฐ ์ ์ฒ๋ฆฌ
Data Type, Data Count, Missing Value ๋ฅผ ํ์ธํ๋ค. Data Type์ ์ ๊ฒํ์ฌ Type ๋ณ๊ฒฝ์ด ํ์ํ์ง, Data Count๋ฅผ ์ ๊ฒํ์ฌ Train๊ณผ Test ๋ ์ด๋ค ๋น์จ๋ก ๋๋์ง, Missing Value๋ฅผ ์ ๊ฒํ์ฌ ์ ๊ฑฐํ ์ง ๋์ฒดํ ์ง๋ฅผ ์ ํ๋ค.
๊ธฐ์ดํต๊ณ๋ถ์(Descriptive Statistics Analysis)
์์นํ ๋ฐ์ดํฐ
mean, median, min, max ๋ฑ ๊ธฐ์ดํต๊ณ๋ก ๋ถํฌ์ Outlier๋ฅผ ์์ํด ๋ณธ๋ค. ๋ฐ์ดํฐ๊ฐ ํ๊ท ๊ทผ์ฒ์ ์๊ณ ์ ๊ท๋ถํฌ๋ก ์์๋๋ฉด ํฐ ์ ๊ฒฝ์ฐ์ง ์์๋ ๋๋ค. : 25% - min, max - 75% ๋ฅผ ์ฐจ์ด๋ฅผ ํ์ธํ๋ฉด ๋ถํฌ์ ์น์ฐ์นจ ์ ๋๋ฅผ ์์ํด ๋ณผ ์ ์๋ค. : 25% - min ์ฐจ์ด๊ฐ ํฌ๋ฉด ์ค๋ฅธ์ชฝ์ผ๋ก ์น์ฐ์น ๋ถํฌ์ด๊ณ max - 75๊ฐ ํฌ๋ฉด ์ผ์ชฝ์ผ๋ก ์น์ฐ์น ๋ถํฌ์ผ ๊ฐ๋ฅ์ฑ์ด ํฌ๋ค. min์ด ์๋์ ์ผ๋ก ๋๋ฌด ์๊ฑฐ๋ max๊ฐ ๋๋ฌด ํฌ๋ฉด Outlier๊ฐ ์กด์ฌํ ๊ฒ์ผ๋ก ์ถ์ธกํด๋ณด๊ณ ์ฐจํธ๋ฅผ ๊ทธ๋ ค๋ณธ๋ค.
์ฐจํธ๋ก ๋ถํฌ๋ฅผ ์ ๊ฒ
๋ฒ์ฃผํ ๋ฐ์ดํฐ
Outlier ๋ฅผ ์ ๊ฒํ๋ค.
Q3 + IRQ1.5 ๊ณผ Q1 - IRQ1.5 ๋ฐ์ outlier๋ก ๋ณธ๋ค.
๋ฒ์ฃผํ์ ์์นํ์ผ๋ก ๋ณ๊ฒฝํ๋ค.
Missing Value
์ ์ฒด ๋ฐ์ดํฐ ๊ฑด์์์ Missing Value๊ฐ ์ฐจ์งํ๋ ๋น์จ์ ์ ๊ฒํด๋ณธ๋ค.
Missing Value๋ฅผ ์ญ์ ํ ์๋ ์์ง๋ง, ์ ๊ฑฐํ๋ฉด ์ค์ํ ์ ๋ณด๋ ํจ๊ป ์ ๊ฑฐ๋ ์ ์์ผ๋ฏ๋ก ๋๋๋ก์ด๋ฉด mean, median ๋ฑ์ผ๋ก ๋์ฒดํ๋ค. ์๋ฅผ๋ค์ด, Missing Value๊ฐ 20% ์ ๋๋ฉด impute ํ๊ณ , 40%~50% ์ ๋๋ฉด feature๊ฐ ๋ง์ง ์์ ๊ฒฝ์ฐ์๋ ์ ๊ฑฐํ๋ ๊ฒ๋ณด๋ค impute ํ๋ ๊ฒ์ด ์ข๋ค. ๋ณดํต, Missing Value๋ Impute๋ mean, median์ ๋ง์ด ์ฌ์ฉํ๋ค.
Data Representation
๋ณดํต, ์ ์ฒด ๋ฐ์ดํฐ๊ฐ 1000 ๊ฐ ์ดํ๋ก ์ ์ผ๋ฉด ํ๋ จ์ฉ๊ณผ ๊ฒ์ฆ์ฉ ๋ฐ์ดํฐ๋ฅผ 8:2 ๋๋๊ณ , ๊ทธ ์ด์์ด๋ฉด 7:3๋ก ๋๋๋ค.
Data Modeling
์ ๋๊ฐ์ด ํด์๋ก ์ํฅ๋๊ฐ ๋์ ๋ณ์์ง๋ง, ๋ฐ์ดํฐ์ ์ค์ผ์ผ ๋ค๋ฅด๋ฉด ๊ผญ ๊ทธ๋ ์ง๋ ์์ผ๋ฏ๋ก๋ ์ฃผ์ํด์ผ ํ๋ค.
Decision Tree
gini ์ง์๊ฐ 0.5์ด๋ฉด, ๋ถ์๋ฌผ์ด ๊ฐ์ฅ ๋ง์ ๊ฒ์ด๊ณ 0์ ๊ฐ๊น์ธ ์๋ก ๋ถ์๋ฌผ ์์ด ์ ๋ถ๋ฅํ ๊ฒ์ด๋ค.
DecisionTreeClassifier
RandomForestRegressor
KMeans
Model Evaluation & Optimization
Accuracy๋ ๋ฐ์ดํฐ ๋ถ๊ท ํ์ด ์ฌํ๋ฉด ๋ชจ๋ธ ์ฑ๋ฅ์ ์ ํํ ํ์ ํ๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์, Confusion Matrix๋ฅผ ํ์ธํด๋ณด๊ณ ์๋ชป ์์ธกํ ๋น์จ(type1/type2 error)์ด ๋ง๋ค๋ฉด Precision, Recall, f1-score๋ฅผ ํ์ธํด์ ์ต์ข ๋ชจ๋ธ ์ฑ๋ฅ์ ์ ๊ฒํด๋ด์ผ ํ๋ค.
๋น์ง๋์ค ๋ฌธ์ ์ ๋ฐ๋ผ type 1/type 2 error์ ์ค์๋ ์ฐจ์ด๊ฐ ์๋ค. ์๋ฅผ ๋ค์ด, ์ค์ ์์ด ์๋์ง๋ง, ์์ผ๋ก ์์ธกํ ๊ฒฝ์ฐ(type 1 error)๋ ํฐ ๋ฌธ์ ๊ฐ ์์ง๋ง, ์์ธ๋ฐ ์ ์์ผ๋ก ์์ธก(type 2 error)ํ๋ฉด ์ฌ๊ฐํ ์ ์๋ค. type 1 Error๊ฐ ์ค์ํ ๊ฒฝ์ฐ๋ ๋ง์ผํ ๋น์ฉ ์ง์ถ์ ๋ฐ๋ฅธ ๊ตฌ๋งค ๋ฐ์์ ๋ถ์ํ ๋ type 1 error๋ ๋ง์ผํ ๋น์ฉ์ ์ง์ถํ์ง๋ง ์ค์ ๋ก ๊ตฌ๋งค๊ฐ ์ด๋ฃจ์ด์ง์ง ์์์ผ๋ฏ๋ก ๋ง์ผํ ๋น์ฉ ์ง์ถ์ด ๋ฐ์ํ๋ค.
Confusion Matrix
Clustering ํ๊ฐ
ํด๋ฌ์คํฐ๋งํ label์ ๋ฐ์ดํฐ์ธํธ์ ํฉ์ณ์ ํด๋ฌ์คํฐ๋ณ ๋ณ์๋ค์ ํ๊ท ์ ๊ตฌํ๊ณ ๋ถ์์ ํ์ฉํ๋ค. ์๋ฅผ๋ค์ด, ๋์ด, ์ฑ๋ณ, ์ฐ๋ด, ์๋น์ ์๊ฐ ์ฃผ์ด์ก์ ๋ ๊ณ ๊ฐ ๋ถ๋ฅํ๊ธฐ ์ํด ํด๋ฌ์คํฐํ์ฌ ๋์ด๊ฐ ์ด๋ฆฌ๊ณ ์์ ์ด ๋์ผ๋ฉด ์ง์ถ์ด ๋๋ค. ๋์ด๊ฐ ๋ง๊ณ ์์ ์ด ๋์ ๊ทธ๋ฃน์ ์ ์ ๊ทธ๋ฃน๋ณด๋ค ์ง์ถ์ด ์ ๋ค. ๋ฑ์ ๋ถ์์ ํ ์ ์๋ค.
Clustering ์ต์ ํ
Elbow๋ ์ต์ ์ ํด๋ฌ์คํฐ ๊ฐ์๋ฅผ ์ ์ ํ๊ธฐ ์ ๋งคํ ๋๊ฐ ์์ผ๋ฉด ์ด๋ด ๊ฒฝ์ฐ, ์ค๋ฃจ์ฃ ์ ์๋ฅผ ์ฌ์ฉํด์ผ ํ๋ค. inertia_ ๋ ํด๋ฌ์คํฐ ์ค์ฌ๊ณผ ๊ด์ธก์น์์ ๊ฑฐ๋ฆฌ ํฉ์ผ๋ก ์์ ์๋ก ์ข์ง๋ง, ์ค๋ฃจ์ฃ ์ค์ฝ์ด ๊ฐ์ด ํด์๋ก ์ข๋ค.
Clustering ์ต์ ํ ์๊ฐํ
์ฐจ์์ถ์ํ๋ฉด ๋ฐ์ดํฐ๊ฐ ์๊ณก๋์ด ํด๋ฌ์คํฐ๋ง์ด ์ ์๋ ๊ฒ ์ฒ๋ผ ๋ณด์ผ ์ ์์ง๋ง, ๊ฐ์ํ๊ณ ์๊ฐํ ๋ถ์์ ์ํํด์ผ ํ๋ค.
Logistic Regression, Decision Tree, Random Forest ์ ์ฐจ์ด
Logistic Regression์ Parameter์ด๊ณ , Decision Tree๋ Non Parameter์ด๋ค. Logistic Regression๋ Feature Power๋ฅผ ์ข๋ ์ ๋๋ฌ๋ธ๋ค. Decision Tree๋ Categorical Value๋ฅผ ์์นํ์ผ๋ก ๋ฐ๊พธ์ง ์์๋ ๋๋ค. Tree ๊ณ์ด์ LR์ฒ๋ผ ๋ณ์์ ์ํฅ๋๋ฅผ ๋ช ํํ๊ฒ ํ์ ํ ์๋ ์์ง๋ง ์๋์ ์ผ๋ก ์ด๋ค ๋ณ์๊ฐ ์ค์ํ์ง ํ์ ํ ์๋ ์๋ค.
Bagging ๊ณผ Random Forest๋ Decision Tree์ overfitting ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋์จ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. Bagging์ ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ์ฌ๋ฌ ๊ฐ์ ์๋ธ์ธํธ๋ก ๋ถ๋ฆฌํ๊ณ ๊ฐ๊ฐ Tree๋ฅผ ํ์ตํ๊ณ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ํ๊ท ๋ด์ด ์์ธก์ ํ๋๋ฐ, ํน์ feature์ ์ํฅ๋ ๋์ ๊ฒฝ์ฐ ๋ชจ๋ธ ์ฑ๋ฅ์ด ์ข์ง ์์ ์๋ ์๋ค. Random Forest๋ Bagging์์ ์ข ๋ ๋ฐ์ ํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก Bagging ๊ด์ธก์น๋ฅผ ์ํ๋งํด์ ์๋ธ์ธํธ๋ฅผ ๋ง๋ค์๋ค๋ฉด, Random Forest๋ ๋ ๋ฆฝ๋ณ์๋ฅผ ์ํํด์ ์๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ์ธํธ๋ฅผ ๋ง๋ค๊ณ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ํ๊ท ๋ด์ด ์์ธกํ๋ค. ์ํฅ๋๊ฐ ํฐ ๋ณ์์ ์ํฅ๋๋ฅผ ๋ฎ์ถ์ด ๋ค๋ฅธ ๋ณ์์ ํน์ฑ๋ ํ์ ํ ์ ์๋ ์ฅ์ ์ด ์๋ค.
ํ์ฉ์ฌ๋ก
๊ด๊ณ ๋ฐ์๋ฅ ์์ธกํ๊ธฐ - ๋์ด, ์ฑ๋ณ, ์์ , ์ผํ๊ท ์ธํฐ๋ท ์ฌ์ฉ์๊ฐ์ด ์ฃผ์ด์ก์ ๋ ๊ด๊ณ ํด๋ฆญ ๋ฐ์ ๋ถ์ํ๊ธฐ ๊ตฌ๋งค ์์ธ ๋ถ์ํ๊ธฐ - ํต์ ์ฌ, ์ ํ์์, ๊ฐ๊ฒฉ์ด ์ฃผ์ด์ก์ ๋ ์ ํ ๊ตฌ๋งค ์์ธ ํ์ ํด ๋ณด๊ธฐ ํ๋ก๋ชจ์ ์ ๋ฐ์ํ ๊ณ ๊ฐ ์์ธก - ์ต๊ทผ๋ฐฉ๋ฌธ์ผ, ์ฑ๋, ๋ฐํ ๋ ๋ฆฝ๋ณ์๊ฐ ์ฃผ์ด์ก์ ๋ ๊ตฌ๋งค์ฌ๋ถ๋ฅผ ์์ธกํ๊ธฐ ๊ณ ๊ฐ๋ถ๋ฅ - ๋์ด, ์ฑ๋ณ, ์ฐ๋ด, ์๋น์ ์๊ฐ ์ฃผ์ด์ก์ ๋ ๊ณ ๊ฐ ๋ถ๋ฅ
Last updated