Descriptive Statistics

Descriptive Statistics, Parameter, Statistics, Categorical, Numerical, Skewness, Kurtosis

Descriptive Statistics

κΈ°μˆ ν†΅κ³„λŠ” EDA 과정에 많이 쓰이며, λ°μ΄ν„°μ˜ νŠΉμ„±μ„ μ‰½κ²Œ νŒŒμ•…ν•  수 μžˆλ„λ‘ 데이터λ₯Ό ν†΅κ³„λž‘ ν˜Ήμ€ λ„ν‘œλ‚˜ 차트둜 ν‘œν˜„ν•΄μ„œ ν•΄μ„ν•˜κΈ° μ‰¬μš΄ ν˜•νƒœλ‘œ λ§Œλ“œλŠ” 것이닀.

Parameter vs Statistics

λͺ¨μˆ˜(parameter)

λͺ¨μ§‘단(Population) ν†΅κ³„λŸ‰μ„ λͺ¨μˆ˜λΌκ³  ν•˜λ©°, λͺ¨μ§‘단 평균, λΆ„μ‚° 등이 μžˆλ‹€.

ν†΅κ³„λŸ‰(statistics)

λͺ¨μ§‘λ‹¨μ—μ„œ μΆ”μΆœν•œ ν‘œλ³Έ(sample)의 ν†΅κ³„λŸ‰μ΄λ‹€. ν†΅κ³„λŸ‰μ—λŠ” ν‘œλ³Έν‰κ· , ν‘œλ³ΈλΆ„μ‚° 등이 있으며, ν‘œλ³Έμ„ κ³ λ₯΄λŠ” 방법에 따라 ν†΅κ³„λŸ‰μ΄ 달라진닀. λ…λ¦½λ³€μˆ˜(Independent variable) μ„€λͺ…λ³€μˆ˜(explanatory variable), μ˜ˆμΈ‘λ³€μˆ˜(predictor variable)λ‘œλ„ λΆˆλ¦°λ‹€. μ’…μ†λ³€μˆ˜(dependent variable) λ°˜μ‘λ³€μˆ˜(response variable), κ²°κ³Όλ³€μˆ˜(outcome variable), νƒ€κ²Ÿλ³€μˆ˜(target variable)λ‘œλ„ λΆˆλ¦°λ‹€.

Data Type

데이터 μœ ν˜•μ€ λ²”μ£Όν˜•κ³Ό μˆ˜μΉ˜ν˜•μœΌλ‘œ κ΅¬λΆ„λœλ‹€. λ²”μ£Όν˜• λ°μ΄ν„°λŠ” μˆ«μžκ°€ μ•„λ‹ˆλΌ μ„€λͺ…이 ν•„μš”ν•œ μ •λ³΄λ‘œ 정성적 데이터이며, λͺ…λͺ©ν˜•κ³Ό μˆœμ„œν˜•μ΄ μžˆλ‹€. μˆ˜μΉ˜ν˜• λ°μ΄ν„°λŠ” 숫자둜 ν‘œν˜„ν•˜λŠ” μ •λŸ‰μ  λ°μ΄ν„°λ‘œ μ΄μ‚°ν˜•κ³Ό μ—°μ†ν˜•μ΄ μžˆλ‹€. 데이터 μœ ν˜•μ— 따라 κΈ°μˆ ν†΅κ³„, 톡계뢄석, λͺ¨λΈλ§ 방법이 달라진닀.

Categorical

λ²”μ£Όν˜•μ€ λͺ…λͺ©ν˜•κ³Ό μˆœμ„œν˜•μœΌλ‘œ κ΅¬λΆ„λ˜λ©°, λΉˆλ„λΆ„μ„μ΄ κ°€λŠ₯ν•˜λ‹€.

Nominal λͺ…λͺ©ν˜•μ€ 값이 크고 μž‘μŒμ„ λ‚˜νƒ€λ‚΄λŠ” 것이 μ•„λ‹ˆλΌ λ‹¨μˆœνžˆ λ²”μ£Όλ₯Ό ν‘œμ‹œν•œλ‹€. 예) 성별, ν˜ˆμ•‘ν˜•, 지역 Ordinal

μˆœμ„œν˜•μ€ λ²”μ£Όμ˜ μˆœμ„œ 비ꡐ κ°€λŠ₯ν•˜λ‹€ 예) μ„ ν˜Έλ„, 학점 (A~F)

Numerical

μˆ˜μΉ˜ν˜•μ€ μ΄μ‚°ν˜•κ³Ό μ—°μ†ν˜•μœΌλ‘œ κ΅¬λΆ„λ˜λ©°, 뢄포뢄석이 κ°€λŠ₯ν•˜λ‹€. discrete μ΄μ‚°ν˜•μ€ μ…€ 수 μžˆλŠ” ν˜•νƒœμ˜ 데이터이닀. 예) λ©€λ²„μ˜ 수 continuous μ—°μ†ν˜•μ€ 연속적인 속성을 κ°€μ§€λŠ” 데이터이닀. μ—°μ†ν˜• λ°μ΄ν„°λŠ” μ΄μ‚°ν™”ν•˜μ—¬ μžμ—°μˆ˜ ν˜•νƒœλ‘œ ν‘œν˜„ν•œλ‹€. 예) μ‹ μž₯, 체쀑

λ³€μˆ˜μ˜ μ—­ν• κ³Ό μœ ν˜•λ³„ 톡계뢄석

μ„€λͺ…λ³€μˆ˜ X, μ’…μ†λ³€μˆ˜ Y라 ν•  λ•Œ

X μˆ˜μΉ˜ν˜• Y μˆ˜μΉ˜ν˜• 이면, 상관뢄석과 νšŒκ·€λΆ„μ„ X μˆ˜μΉ˜ν˜• Y λ²”μ£Όν˜• 이면, λ‘œμ§€μŠ€ν‹± νšŒκ·€λΆ„μ„ X λ²”μ£Όν˜• Y μˆ˜μΉ˜ν˜• 이면, T-test, ANONVA 뢄석 X λ²”μ£Όν˜• Y λ²”μ£Όν˜• 이면, μΉ΄μ΄μ œκ³±κ²€μ •κ³Ό λ‘œμ§€μŠ€ν‹± νšŒκ·€λΆ„μ„μ„ ν•  수 μžˆλ‹€.

데이터 μœ ν˜• 별 κΈ°μˆ ν†΅κ³„

λ²”μ£Όν˜• λ°μ΄ν„°λŠ” Bar 차트, Pie 차트, λ„μˆ˜λΆ„ν¬ν‘œ λ“±μœΌλ‘œ 데이터λ₯Ό ν‘œν˜„ν•˜μ—¬ λΉˆλ„λΆ„μ„μ„ ν•œλ‹€. μˆ˜μΉ˜ν˜• λ°μ΄ν„°λŠ” νžˆμŠ€ν† κ·Έλž¨, Box-Plot, ν†΅κ³„λŸ‰ λ“±μœΌλ‘œ 데이터λ₯Ό ν‘œν˜„ν•˜μ—¬ 뢄포뢄석을 ν•œλ‹€.

Statistics

ν†΅κ³„λŸ‰μ€ λ°μ΄ν„°μ˜ 쀑심적 κ²½ν–₯(μœ„μΉ˜), λ°μ΄ν„°μ˜ 흩어전 정도(변이), λ°μ΄ν„°μ˜ 치우침 정도(λͺ¨μ–‘)λ₯Ό νŒŒμ•…ν•  수 μžˆλ‹€.

μœ„μΉ˜ ν†΅κ³„λŸ‰

μœ„μΉ˜ ν†΅κ³„λŸ‰μœΌλ‘œ λ°μ΄ν„°μ˜ 쀑심적 κ²½ν–₯을 λ‚˜νƒ€λ‚Έλ‹€. 즉 λ°μ΄ν„°μ˜ 쀑심 μœ„μΉ˜λ₯Ό ν‘œν˜„ν•œλ‹€.

예) 평균(Mean), μ€‘μœ„μˆ˜(Median), μ΅œλΉˆκ°’(Mode, λΉˆλ„κ°€ κ°€μž₯ λ§Žμ€ κ΄€μΈ‘μΉ˜), μ‚¬λΆ„μœ„μˆ˜(Quantile: μ΅œμ†Œκ°’, 쀑앙값, μ΅œλŒ€κ°’, 1μ‚¬λΆ„μœ„μˆ˜, 3μ‚¬λΆ„μœ„μˆ˜) 등이 μžˆλ‹€.

변이 ν†΅κ³„λŸ‰

λ°μ΄ν„°μ˜ 흩어진 정도λ₯Ό λ‚˜νƒ€λ‚Έλ‹€. 예) λΆ„μ‚°, ν‘œμ€€νŽΈμ°¨, μ‚¬λΆ„μœ„ λ²”μœ„ (IQR, Q3 - Q1) 등이 μžˆλ‹€.

λͺ¨μ–‘ ν†΅κ³„λŸ‰

μ€‘μ‹¬μœ„μΉ˜λ‘œ λΆ€ν„° 데이터가 치우친 정도λ₯Ό λ‚˜νƒ€λ‚Έλ‹€. μ™œλ„(Skewness, μŠ€νλ‹ˆμŠ€) μ€‘μ‹¬μœ„μΉ˜λ‘œ λΆ€ν„° μ–΄λŠ ν•œμͺ½μœΌλ‘œ 치우친 정도λ₯Ό λ‚˜νƒ€λ‚Έλ‹€. μ™œλ„ < 0 이면, μ™Όμͺ½μœΌλ‘œ 꼬리가 κΈ΄ 뢄포 μ™œλ„ = 0 이면, 쒌우 λŒ€μΉ­ μ™œλ„ > 0 이면, 였λ₯Έμͺ½μœΌλ‘œ 꼬리가 κΈ΄ 뢄포 첨도(Kurtosis, μ»€ν† μ‹œμŠ€) λΆ„ν¬μ˜ λΎ°μ‘±ν•œ 정도λ₯Ό λ‚˜νƒ€λ‚Έλ‹€.

μš©μ–΄

상관뢄석 상관뢄석은 두 λ³€μˆ˜μ˜ μ„ ν˜• 관계λ₯Ό λΆ„μ„ν•˜λŠ” 것이닀.

λ³€λ™κ³„μˆ˜(Coefficient of Variation) ν‘œμ€€νŽΈμ°¨λ₯Ό μ‚°μˆ ν‰κ· μœΌλ‘œ λ‚˜λˆˆ κ²ƒμœΌλ‘œ μƒλŒ€ν‘œμ€€νŽΈμ°¨λΌκ³ λ„ λΆˆλ¦°λ‹€. 변동 개수의 값이 클수둝 μƒλŒ€μ μΈ 차이가 ν¬λ‹€λŠ” μ˜λ―Έμ΄λ‹€ 예) μ†Œλ§λ¦¬μ•„μ˜ 1인당 κ΅­λ―Ό μ†Œλ“ 평균 50λ‹¬λŸ¬, ν‘œμ€€νŽΈμ°¨κ°€ 5이고, λΆν•œμ˜ 1인당 κ΅­λ―Ό μ†Œλ“μ΄ 20λ‹¬λŸ¬, ν‘œμ€€νŽΈμ°¨κ°€ 5일 경우, 두 λ‚˜λΌμ˜ ν‘œμ€€νŽΈμ°¨κ°€ 같더라도 μΈ‘μ • λ‹¨μœ„κ°€ λ‹€λ₯΄λ―€λ‘œ λΉˆλΆ€κ²©μ°¨κ°€ κ°™λ‹€κ³  ν•  수 μ—†λ‹€. μ†Œλ§λ¦¬μ•„κ°€ λ³€λ™κ³„μˆ˜ 10%이고, λΆν•œμ΄ 25%μ΄λ―€λ‘œ, λΆν•œμ΄ λΉˆλΆ€κ²©μ°¨κ°€ 더 μ‹¬ν•˜λ‹€κ³  말할 수 μžˆλ‹€.

변이(variability) 데이터가 μ–Όλ§ˆλ‚˜ 밀집해 μžˆλŠ”μ§€ ν˜Ήμ€ νΌμ ΈμžˆλŠ”μ§€λ₯Ό λ‚˜νƒ€λ‚΄λŠ” 산포도(dispersion)이닀. 변이 ν†΅κ³„λŸ‰ λΆ„μ‚°(variance) ν˜Ήμ€ ν‰κ· μ œκ³±μ˜€μ°¨(MSE, Mean Square Error)κ°€ 변이 ν†΅κ³„λŸ‰μ— ν•΄λ‹Ήλœλ‹€.

λΆˆνŽΈμΆ”μ •λŸ‰ μ–΄λ–€ μΆ”μ •λŸ‰μ˜ κΈ°λŒ€κ°’μ΄ μΆ”μ •ν•˜κ³ μž ν•˜λŠ” λͺ¨μˆ˜μ™€ κ°™μ•„μ§€λŠ” μΆ”μ •λŸ‰μ„ λ§ν•œλ‹€

Last updated