ML Workflow
Data Preprocessing, Exploratory Data Analysis, Data Representation, ML Modeling, Evaluation, Optimization
ML Workflow
๋ฐ์ดํฐ ๋ฌธ์ ํด๊ฒฐํ๊ธฐ ์ํด ML์ ์ด์ฉํ ๋ฐ์ดํฐ ๋ถ์ ๊ณผ์ ์ ์ดํด๋ณด๋ฉด, ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ, ํ์์ ๋ฐ์ดํฐ ๋ถ์, ๋ฐ์ดํฐ ํํ, ML๋ชจ๋ธ๋ง, ML๋ชจ๋ธ ์ต์ ํ ๋ฑ ๊ณผ์ ์ ๊ฑฐ์ณ ML๋ชจ๋ธ์ ์์ฑํ๋ค. ๊ฐ ๋ฐ์ดํฐ ๋ถ์ ๊ฐ ๋จ๊ณ์ ๋ํด ์์๋ณด์.

Data Preprocessing
๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ๋ ML ์๊ณ ๋ฆฌ์ฆ์ ๋ง๊ฒ ๋ฐ์ดํฐ๋ฅผ ํํ(Data Representation)ํ๊ธฐ ์ ์ ๋ฐ์ดํฐ๋ฅผ ์ ์ฒ๋ฆฌํ๋ ๋จ๊ณ๋ก ๋ณดํต ํ์์ ๋ฐ์ดํฐ ๋ถ์(EDA, Exploratory Data Analysis)๊ณผ ํจ๊ป ์ํ๋๋ฉฐ, ๋ฐ์ดํฐ ์ ํ์ ๋ฐ๋ผ ์ ์ฒ๋ฆฌํ๋ ๋ฐฉ์์ด ๋ค๋ฅด๋ค.

์์น(Numerical), ๋ฒ์ฃผ(Categorical) ๋ฐ์ดํฐ
์์น, ๋ฒ์ฃผ ๋ฐ์ดํฐ๋ ์ ์ฒ๋ฆฌ ๋จ๊ณ์์ ๊ฒฐ์ธก์น ์ฒ๋ฆฌ๊ฐ ์ค์ํ๋ฉฐ, ๋ค์ ์๋๋ฆฌ์ค์ ๋ฐ๋ผ ์ ์ฒ๋ฆฌ๋ฅผ ์ํํ๋ค.

Natural Language
์์ฐ์ด ์ ์ฒ๋ฆฌ๋ ๊ธฐ๋ณธ์ ์ผ๋ก ํ ํฐํ, ์ ์ฌ, ํ์ฌ๋ถ์ฐฉ, ๊ฐ์ฒด๋ช ์ธ์, ๋ถ์ฉ์ด ์ ๊ฑฐ ๋จ๊ณ๋ก ์ํ๋๋ฉฐ ๋ชจ๋ธ์ ๋ฐ๋ผ ๊ฐ ๋จ๊ณ๋ฅผ ์ถ๊ฐ/์ญ์ ํ์ฌ ์ ์ฒ๋ฆฌ ํ๋ค.

Exploratory Data Analysis
ํ์์ ๋ฐ์ดํฐ ๋ถ์๋ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ์ ํจ๊ป ์ํ๋๋ ๋จ๊ณ๋ก ๋ฐ์ดํฐ์ ๋ถํฌ๋ ๋ณ์๊ฐ ๊ด๊ณ๋ฅผ ํ์ ํ๊ธฐ ์ํด ํต๊ณ ๊ธฐ๋ฒ๊ณผ ํ์คํ ๊ทธ๋จ, ์ฐ์ ๋ ๋ฑ ๋ค์ํ ์๊ฐํ ๋ฐฉ๋ฒ์ ๋์ํด ๋ฐ์ดํฐ์ ์ ์๋ฏธํ ์ ๋ณด๋ฅผ ์ฐพ์๊ฐ๋ ๋จ๊ณ์ด๋ค. ์ ์ฒ๋ฆฌ ๋์ ์ ์ ๊ณผ Feature Selection์ ์ํํ๋ ์ค์ํ ๋จ๊ณ์ด๋ค.

Data Representation
๋ฐ์ดํฐ ํํ์ ML ์๊ณ ๋ฆฌ์ฆ์ ์ปดํจํฐ๊ฐ ์ดํดํ ์ ์๋ ์ซ์ ํ์์ ๋ฐ์ดํฐ(์ ์ ๋ฐ ์ค์)๋ง ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์, ๋ชจ๋ธ๋ง์ ์งํํ๊ธฐ ์ ์ ๋ฐ์ดํฐ ํ์์ ML ์๊ณ ๋ฆฌ์ฆ์ ๋ง๊ฒ ๋ฐ์ดํฐ๋ฅผ ๋ณํํ๋ ๋ฐ์ดํฐ ํํ ๋จ๊ณ์ด๋ค.

Word Embedding
๋จ์ด ์๋ฒ ๋ฉ์ ๋จ์ด์ ๋ฌธ๋งฅ์ ํ์ตํด์ ๋จ์ด๋ฅผ ํํํ๋ ๋ชจ๋ธ๋ก ๋ฌธ์ฅ์ ๋์ค๋ ๋จ์ด์ ์์๋ฅผ ๋ณด๊ณ ํ์ตํ๊ธฐ ๋๋ฌธ์ ๋จ์ด์ ๊ด๊ณ์ ์ ์ฌ๋๋ฅผ ์ป์ ์ ์๋ค.

ML Modeling
DNN (Deep Neural Network)
์ธ๊ณต ์ ๊ฒฝ๋ง์ ์ธ๊ฐ์ ๋ด๋ฐ ๊ตฌ์กฐ๋ฅผ ๋ณธ๋ ๋ง๋ ๋ชจ๋ธ์ด๋ค. ์๋์ธต(Hidden Layer)์ ์๊ฐ ๋ง์ ์๋ก ๋ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์์ผ๋ฉฐ, ์๋์ธต ์๊ฐ 1๊ฐ๋ฉด ANN(Artificial Neural Network), 2๊ฐ ์ด์์ด๋ฉด DNN(Deep Neural Network)์ด๋ผ๊ณ ํ๋ค. DNN์ ๋คํธ์ํฌ๋ฅผ ์๋ ๋ฐฉ๋ฒ์ ๋ฐ๋ผ CNN, RNN ๊ณ์ด ๋ฑ์ผ๋ก ๋ถ๋ฅ๋๋ค.

CNN (Convolutional Neural Network)
์ด๋ฏธ์ง ์ ์ฒด๋ฅผ ๋ณด๋ ๊ฒ์ด ์๋๋ผ ๋ถ๋ถ์ ๋ณด๋ ๊ฒ์ด ํต์ฌ ์์ด๋์ด์ด๋ฉฐ, ์ด๋ฏธ์ง ์ธ์์ ํจ๊ณผ์ ์ธ Features๋ฅผ ์ค์ค๋ก ํ์ตํ๋ ๋ฅ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.

Text CNN
CNN์ ์ด๋ฏธ์ง ์ธ์์ ๋ง์ด ์ฌ์ฉ๋์ง๋ง, ํ ์คํธ ๋ถ๋ฅํ๋ ์์ ์๋ ์ฌ์ฉํ ์ ์๋ค. ํ ์คํธ์์ ๋ฌธ์์ ์ง์ญ ์ ๋ณด๋ฅผ ๋ณด์กดํจ์ผ๋ก์จ ๋จ์ด์ ๋ฑ์ฅ ์์๋ฅผ ํ์ต์ ๋ฐ์ํ๋ ๋ฅ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.

RNN (Recurrent Neural Network)
๊ธฐ์กด ์ ๊ฒฝ๋ง์ ๋ชจ๋ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ด ์ํฅ์ ์ฃผ์ง ์๊ณ ๋ ๋ฆฝ์ ์ผ๋ก ํ๋จํ์ง๋ง, ์ค์ํ ๋ฌธ์ (์๊ณ์ด, ์์ฐ์ด, ์์ฑ)๋ค์ ์ด์ ์ ๋ฐ์ํ ์ฌ๊ฑด์ด ํ์ฌ์ ์ํฅ์ ๋ฏธ์น ๋๊ฐ ๋ง๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํ๊ธฐ ์ํด ๋์จ ๊ฒ์ด RNN ๋ฅ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.

Seq2Seq
Seq2Seq๋ LSTM ๊ธฐ๋ฐ ๋ชจํ์ผ๋ก Encoder์Decoder 2๊ฐ ํํธ๋ก ์ด๋ฃจ์ด์ง ๋ฅ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ๋๋ฉ์ธ์์ ๋ค๋ฅธ ๋๋ฉ์ธ์ผ๋ก ์ํ์ค๋ฅผ ๋ณํํ๋ ๋ชจํ์ผ๋ก ๊ธฐ๊ณ๋ฒ์ญ ํน์ ์ง์์๋ต์ ๋ง์ด ์ฌ์ฉํ๋ค. Encoder๊ฐ ๋ฌธ์ฅ์ ๋จ์ด์ ๋จ์ด ์์ ์ ๋ณด๊ฐ ๋ด๊ธด Context Vector๋ฅผ ๋ง๋ค๊ณ , Decoder๊ฐ Context Vector๋ฅผ ์๋ก์ด ๋ฌธ์ฅ์ผ๋ก ๋ณํํ๋ค. Context Vector๋ ๊ธธ์ด๊ฐ ๊ณ ์ ๋ ๋ฒกํฐ์ด๋ฏ๋ก ๋ฌธ์ฅ์ด ๊ธธ์ด์ง ๊ฒฝ์ฐ, Context Vector์ ์ถฉ๋ถํ ์ ๋ณด๋ฅผ ๋ด์ ์ ์์ด ๋ชจ๋ธ ์ฑ๋ฅ์ด ์ ํ๋๋ค.

Seq2Seq with Attention
Seq2Seq ๋ฌธ์ ์ ์ ๊ฐ์ ํ๊ธฐ ์ํด Attention Mechanism์ด ์ถ๊ฐ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. Decoder์์ ์ถ๋ ฅ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋งค ์์ ๋ง๋ค, ์์ธกํด์ผ ํ ๋จ์ด์ ์ฐ๊ด ์๋ ๋จ์ด๋ฅผ ์ข ๋ ์ง์ค(attention)ํด์ ๋ณด๋ ๋ฐฉ์์ผ๋ก ๋์ํ๋ค.

SVM (Support Vector Machine)
์ง๋ ํ์ต์์ ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ์ผ๋ก, ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ๋ํด์ ๊ทธ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฆฌํ๋ ์ดํ๋ช (hyperplane) ์ค์์, ๋ฐ์ดํฐ์ ๊ฐ์ฅ ๊ฑฐ๋ฆฌ๊ฐ ๋จผ ์ดํ๋ฉด์ ์ฐพ๋ ๋ฐฉ๋ฒ์ด๋ค.

Random Forest
Decision Tree ์๊ณ ๋ฆฌ์ฆ์ด ์ค๋ฒํผํ ๊ฐ๋ฅ์ฑ์ด ๋๊ธฐ ๋๋ฌธ์ ๋๋คํฌ๋ ์คํธ๊ฐ ๋์ ๋์๋ค.๊ธฐ๊ณ ํ์ต์์์ ๋๋ค ํฌ๋ ์คํธ๋ ๋ถ๋ฅ, ํ๊ท ๋ถ์ ๋ฑ์ ์ฌ์ฉ๋๋ ์์๋ธ ํ์ต ๋ฐฉ๋ฒ์ ์ผ์ข ์ผ๋ก ํ๋ จ ๊ณผ์ ์์ ๊ตฌ์ฑํ ๋ค์์ ๊ฒฐ์ ํธ๋ฆฌ๋ก๋ถํฐ ๋ถ๋ฅ ๋๋ ์์ธก์ ์ถ๋ ฅํจ์ผ๋ก์จ ๋์ํ๋ค.

Matrix Factorization
Matrix Factorization ๋ชจ๋ธ์ ์ด์ฉํ ์ถ์ฒ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ ์ฌ์์ธ ๋ชจ๋ธ ์ค ํ๋์ด๋ค.

K-Means
K-Means ์๊ณ ๋ฆฌ์ฆ์ ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ k๊ฐ์ ํด๋ฌ์คํฐ๋ก ๋ฌถ๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, ๊ฐ ํด๋ฌ์คํฐ์ ๊ฑฐ๋ฆฌ ์ฐจ์ด์ ๋ถ์ฐ์ ์ต์ํํ๋ ๋ฐฉ์์ผ๋ก ๋์ํ๋ค.

Logistic Regression
๋ก์ง์คํฑ ํ๊ท๋ถ์์์ 0~1 ๋ฒ์์ ํ๋ฅ ๊ฐ์ 0 ๋๋ 1์ ๊ฐ์ผ๋ก ๋งคํํ๋ค. ์๊ณ๊ฐ์ ์ด๊ณผํ๋ ๊ฐ์ 1์ด ๋๊ณ ์๊ณ๊ฐ ๋ณด๋ค ๋ฎ์ ๊ฐ์ 0์ด ๋๋ค. ํ๊ท์์ ์ข ์๋ณ์ ์์ธก ๋ฒ์๋ -๋ฌดํ๋~ +๋ฌดํ๋ฐ์ธ๋ฐ logistic์ 0~1 ์ฌ์ด ์์ธกํ๋ฏ๋ก ๋ถ๋ฅ์์๋ ํ๊ท๋ผ๊ณ ๋ถ๋ฅธ๋ค.
KNN (K-Nearest Neighbors)
์์ธกํ ๋ฐ์ดํฐ์ ๊ฐ์ฅ ์ธ์ ํ K๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ ์ ํ๊ณ , K๊ฐ์ ๋ฐ์ดํฐ๊ฐ ๊ฐ์ฅ ๋ง์ด ์ํ ๋ถ๋ฅ๋ฅผ ์ ํํ๋ค. ๋ณดํต K๋ ํ์๋ฅผ ๋ง์ด ์ฌ์ฉํ๋ค.ํ์ตํ๋ ๊ฒ์ด ์๋๋ฉด ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ ์์ธก์ผ๋ก ๋ถ๋ฅ ํ๊ท ๋๋ค ์ฌ์ฉ ๊ฐ๋ฅํ๋ค.
Model Evaluation & Model Optimization
Model Evaluation
๋ชจ๋ธํ๊ฐ์์ ํ์ต์ค์ฐจ(Training Error)๋ ๋ชจ๋ธ์ด ๋ณต์กํด์ง ์๋ก ์์์ง์ง๋ง, ๊ณผ์ ํฉ(Overfitting)๋ ์ ์๋ค. ๊ทธ๋ฌ๋ฏ๋ก, ์์ธก์ค์ฐจ(Testing Error)๋ฅผ ์ต์ํํ๋ ํ์ต ๋ชจ๋ธ์ ์ ์ ํ๋ ๊ฒ์ด ์ค์ํ๋ค. ์์ธก ์ค์ฐจ๋ฅผ ํ๊ฐํ๋ ๋ฐฉ๋ฒ์ Hold-out Test, k-fold CV ์๊ณ ๋ฆฌ์ฆ ๋ฑ์ด ์๋ค.
๋ฐ์ดํฐ์ธํธ ๋ถ๋ฆฌ
Hold-out TestDataset๋ฅผ Training data์ Test data๋ก ๋๋๊ณ Training data๋ฅผ ์ด์ฉํ์ฌ ๋ชจ๋ธ์ fitํ ํ, fitํ ๋ชจ๋ธ์ Test data๋ก predictํ๊ณ predict ๊ฒฐ๊ณผ๋ฅผ ํ๊ฐํ๋ค.
K-fold Cross Validation K-fold CV ์๊ณ ๋ฆฌ์ฆ์ ๋ฐ์ดํฐ๋ฅผ k๊ฐ set๋ก ๋ถํ ํ๊ณ ๊ฐ j์ ๋ํด j๋ฒ์งธ set์ ์ ์ธํ ๋๋จธ์ง๋ฅผ set์ Training data๋ก ์ด์ฉํ์ฌ ๋ชจ๋ธ์ fitํ ํ, j๋ฒ์งธ set์ Test data๋ฅผ ์ด์ฉํ์ฌ ์์ธก์ค์ฐจ๋ฅผ ๊ตฌํ๋ค. k๊ฐ์ ์์ธก์ค์ฐจ์ ํ๊ท ์ ํ์ฉํ์ฌ ์ต์ ์ ๋ชจ๋ธ์ ์ ์ ํ๋ค.
๋ชจ๋ธ์ ํ๊ฐ์งํ
์ฐ์ํ ๊ฐ์ ์์ธกํ๋ ๊ฒฝ์ฐ๋ MSE, MAE, MAPE ๋ฑ์ด ํ๊ฐ์งํ์ด๋ฉฐ, ๋ฒ์ฃผํ ๊ฐ์ Accuracy, Precision, Recall, F-measure ๋ฑ์ด ํ๊ฐ์งํ์ด๋ค.\
Model Optimization
๊ฐ๋ฐ์ ๋ง์ง๋ง ๋จ๊ณ์์ ์ด๋ฏธ ์ป์ ML๋ชจ๋ธ์ ๊ฐ์ ํ๊ธฐ ์ํด, ๋ฐ๋ณต ์คํ์ ํตํด ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ๋ ๊ณผ์ ์ด๋ค. ์ด ๊ณผ์ ์ ์๋ํํ AutoML ๋๊ตฌ๋ฅผ ์ฌ์ฉํ๋ฉด ์๊ฐ ๋น์ฉ์ ์๋ ์ ์๋ค.

Last updated
Was this helpful?