Descriptive Statistics

Descriptive Statistics, Parameter, Statistics, Categorical, Numerical, Skewness, Kurtosis

Descriptive Statistics

기술통계는 EDA 과정에 많이 쓰이며, 데이터의 특성을 쉽게 파악할 수 있도록 데이터를 통계랑 혹은 도표나 차트로 표현해서 해석하기 쉬운 형태로 만드는 것이다.

Parameter vs Statistics

모수(parameter)

모집단(Population) 통계량을 모수라고 하며, 모집단 평균, 분산 등이 있다.

통계량(statistics)

모집단에서 추출한 표본(sample)의 통계량이다. 통계량에는 표본평균, 표본분산 등이 있으며, 표본을 고르는 방법에 따라 통계량이 달라진다. 독립변수(Independent variable) 설명변수(explanatory variable), 예측변수(predictor variable)로도 불린다. 종속변수(dependent variable) 반응변수(response variable), 결과변수(outcome variable), 타겟변수(target variable)로도 불린다.

Data Type

데이터 유형은 범주형과 수치형으로 구분된다. 범주형 데이터는 숫자가 아니라 설명이 필요한 정보로 정성적 데이터이며, 명목형과 순서형이 있다. 수치형 데이터는 숫자로 표현하는 정량적 데이터로 이산형과 연속형이 있다. 데이터 유형에 따라 기술통계, 통계분석, 모델링 방법이 달라진다.

Categorical

범주형은 명목형과 순서형으로 구분되며, 빈도분석이 가능하다.

Nominal 명목형은 값이 크고 작음을 나타내는 것이 아니라 단순히 범주를 표시한다. 예) 성별, 혈액형, 지역 Ordinal

순서형은 범주의 순서 비교 가능하다 예) 선호도, 학점 (A~F)

Numerical

수치형은 이산형과 연속형으로 구분되며, 분포분석이 가능하다. discrete 이산형은 셀 수 있는 형태의 데이터이다. 예) 멤버의 수 continuous 연속형은 연속적인 속성을 가지는 데이터이다. 연속형 데이터는 이산화하여 자연수 형태로 표현한다. 예) 신장, 체중

변수의 역할과 유형별 통계분석

설명변수 X, 종속변수 Y라 할 때

X 수치형 Y 수치형 이면, 상관분석과 회귀분석 X 수치형 Y 범주형 이면, 로지스틱 회귀분석 X 범주형 Y 수치형 이면, T-test, ANONVA 분석 X 범주형 Y 범주형 이면, 카이제곱검정과 로지스틱 회귀분석을 할 수 있다.

데이터 유형 별 기술통계

범주형 데이터는 Bar 차트, Pie 차트, 도수분포표 등으로 데이터를 표현하여 빈도분석을 한다. 수치형 데이터는 히스토그램, Box-Plot, 통계량 등으로 데이터를 표현하여 분포분석을 한다.

Statistics

통계량은 데이터의 중심적 경향(위치), 데이터의 흩어전 정도(변이), 데이터의 치우침 정도(모양)를 파악할 수 있다.

위치 통계량

위치 통계량으로 데이터의 중심적 경향을 나타낸다. 즉 데이터의 중심 위치를 표현한다.

예) 평균(Mean), 중위수(Median), 최빈값(Mode, 빈도가 가장 많은 관측치), 사분위수(Quantile: 최소값, 중앙값, 최대값, 1사분위수, 3사분위수) 등이 있다.

변이 통계량

데이터의 흩어진 정도를 나타낸다. 예) 분산, 표준편차, 사분위 범위 (IQR, Q3 - Q1) 등이 있다.

모양 통계량

중심위치로 부터 데이터가 치우친 정도를 나타낸다. 왜도(Skewness, 스큐니스) 중심위치로 부터 어느 한쪽으로 치우친 정도를 나타낸다. 왜도 < 0 이면, 왼쪽으로 꼬리가 긴 분포 왜도 = 0 이면, 좌우 대칭 왜도 > 0 이면, 오른쪽으로 꼬리가 긴 분포 첨도(Kurtosis, 커토시스) 분포의 뾰족한 정도를 나타낸다.

용어

상관분석 상관분석은 두 변수의 선형 관계를 분석하는 것이다.

변동계수(Coefficient of Variation) 표준편차를 산술평균으로 나눈 것으로 상대표준편차라고도 불린다. 변동 개수의 값이 클수록 상대적인 차이가 크다는 의미이다 예) 소말리아의 1인당 국민 소득 평균 50달러, 표준편차가 5이고, 북한의 1인당 국민 소득이 20달러, 표준편차가 5일 경우, 두 나라의 표준편차가 같더라도 측정 단위가 다르므로 빈부격차가 같다고 할 수 없다. 소말리아가 변동계수 10%이고, 북한이 25%이므로, 북한이 빈부격차가 더 심하다고 말할 수 있다.

변이(variability) 데이터가 얼마나 밀집해 있는지 혹은 퍼져있는지를 나타내는 산포도(dispersion)이다. 변이 통계량 분산(variance) 혹은 평균제곱오차(MSE, Mean Square Error)가 변이 통계량에 해당된다.

불편추정량 어떤 추정량의 기대값이 추정하고자 하는 모수와 같아지는 추정량을 말한다

Last updated