Descriptive Statistics
Descriptive Statistics, Parameter, Statistics, Categorical, Numerical, Skewness, Kurtosis
Descriptive Statistics
κΈ°μ ν΅κ³λ EDA κ³Όμ μ λ§μ΄ μ°μ΄λ©°, λ°μ΄ν°μ νΉμ±μ μ½κ² νμ ν μ μλλ‘ λ°μ΄ν°λ₯Ό ν΅κ³λ νΉμ λνλ μ°¨νΈλ‘ ννν΄μ ν΄μνκΈ° μ¬μ΄ ννλ‘ λ§λλ κ²μ΄λ€.
Parameter vs Statistics
λͺ¨μ(parameter)
λͺ¨μ§λ¨(Population) ν΅κ³λμ λͺ¨μλΌκ³ νλ©°, λͺ¨μ§λ¨ νκ· , λΆμ° λ±μ΄ μλ€.
ν΅κ³λ(statistics)
λͺ¨μ§λ¨μμ μΆμΆν νλ³Έ(sample)μ ν΅κ³λμ΄λ€. ν΅κ³λμλ νλ³Ένκ· , νλ³ΈλΆμ° λ±μ΄ μμΌλ©°, νλ³Έμ κ³ λ₯΄λ λ°©λ²μ λ°λΌ ν΅κ³λμ΄ λ¬λΌμ§λ€. λ 립λ³μ(Independent variable) μ€λͺ λ³μ(explanatory variable), μμΈ‘λ³μ(predictor variable)λ‘λ λΆλ¦°λ€. μ’ μλ³μ(dependent variable) λ°μλ³μ(response variable), κ²°κ³Όλ³μ(outcome variable), νκ²λ³μ(target variable)λ‘λ λΆλ¦°λ€.
Data Type
λ°μ΄ν° μ νμ λ²μ£Όνκ³Ό μμΉνμΌλ‘ ꡬλΆλλ€. λ²μ£Όν λ°μ΄ν°λ μ«μκ° μλλΌ μ€λͺ μ΄ νμν μ λ³΄λ‘ μ μ±μ λ°μ΄ν°μ΄λ©°, λͺ λͺ©νκ³Ό μμνμ΄ μλ€. μμΉν λ°μ΄ν°λ μ«μλ‘ νννλ μ λμ λ°μ΄ν°λ‘ μ΄μ°νκ³Ό μ°μνμ΄ μλ€. λ°μ΄ν° μ νμ λ°λΌ κΈ°μ ν΅κ³, ν΅κ³λΆμ, λͺ¨λΈλ§ λ°©λ²μ΄ λ¬λΌμ§λ€.
Categorical
λ²μ£Όνμ λͺ λͺ©νκ³Ό μμνμΌλ‘ ꡬλΆλλ©°, λΉλλΆμμ΄ κ°λ₯νλ€.
Nominal λͺ λͺ©νμ κ°μ΄ ν¬κ³ μμμ λνλ΄λ κ²μ΄ μλλΌ λ¨μν λ²μ£Όλ₯Ό νμνλ€. μ) μ±λ³, νμ‘ν, μ§μ Ordinal
μμνμ λ²μ£Όμ μμ λΉκ΅ κ°λ₯νλ€ μ) μ νΈλ, νμ (A~F)
Numerical
μμΉνμ μ΄μ°νκ³Ό μ°μνμΌλ‘ ꡬλΆλλ©°, λΆν¬λΆμμ΄ κ°λ₯νλ€. discrete μ΄μ°νμ μ μ μλ ννμ λ°μ΄ν°μ΄λ€. μ) λ©€λ²μ μ continuous μ°μνμ μ°μμ μΈ μμ±μ κ°μ§λ λ°μ΄ν°μ΄λ€. μ°μν λ°μ΄ν°λ μ΄μ°ννμ¬ μμ°μ ννλ‘ νννλ€. μ) μ μ₯, 체μ€
λ³μμ μν κ³Ό μ νλ³ ν΅κ³λΆμ
μ€λͺ λ³μ X, μ’ μλ³μ YλΌ ν λ
X μμΉν Y μμΉν μ΄λ©΄, μκ΄λΆμκ³Ό νκ·λΆμ X μμΉν Y λ²μ£Όν μ΄λ©΄, λ‘μ§μ€ν± νκ·λΆμ X λ²μ£Όν Y μμΉν μ΄λ©΄, T-test, ANONVA λΆμ X λ²μ£Όν Y λ²μ£Όν μ΄λ©΄, μΉ΄μ΄μ κ³±κ²μ κ³Ό λ‘μ§μ€ν± νκ·λΆμμ ν μ μλ€.
λ°μ΄ν° μ ν λ³ κΈ°μ ν΅κ³
λ²μ£Όν λ°μ΄ν°λ Bar μ°¨νΈ, Pie μ°¨νΈ, λμλΆν¬ν λ±μΌλ‘ λ°μ΄ν°λ₯Ό νννμ¬ λΉλλΆμμ νλ€. μμΉν λ°μ΄ν°λ νμ€ν κ·Έλ¨, Box-Plot, ν΅κ³λ λ±μΌλ‘ λ°μ΄ν°λ₯Ό νννμ¬ λΆν¬λΆμμ νλ€.
Statistics
ν΅κ³λμ λ°μ΄ν°μ μ€μ¬μ κ²½ν₯(μμΉ), λ°μ΄ν°μ ν©μ΄μ μ λ(λ³μ΄), λ°μ΄ν°μ μΉμ°μΉ¨ μ λ(λͺ¨μ)λ₯Ό νμ ν μ μλ€.
μμΉ ν΅κ³λ
μμΉ ν΅κ³λμΌλ‘ λ°μ΄ν°μ μ€μ¬μ κ²½ν₯μ λνλΈλ€. μ¦ λ°μ΄ν°μ μ€μ¬ μμΉλ₯Ό νννλ€.
μ) νκ· (Mean), μ€μμ(Median), μ΅λΉκ°(Mode, λΉλκ° κ°μ₯ λ§μ κ΄μΈ‘μΉ), μ¬λΆμμ(Quantile: μ΅μκ°, μ€μκ°, μ΅λκ°, 1μ¬λΆμμ, 3μ¬λΆμμ) λ±μ΄ μλ€.
λ³μ΄ ν΅κ³λ
λ°μ΄ν°μ ν©μ΄μ§ μ λλ₯Ό λνλΈλ€. μ) λΆμ°, νμ€νΈμ°¨, μ¬λΆμ λ²μ (IQR, Q3 - Q1) λ±μ΄ μλ€.
λͺ¨μ ν΅κ³λ
μ€μ¬μμΉλ‘ λΆν° λ°μ΄ν°κ° μΉμ°μΉ μ λλ₯Ό λνλΈλ€. μλ(Skewness, μ€νλμ€) μ€μ¬μμΉλ‘ λΆν° μ΄λ νμͺ½μΌλ‘ μΉμ°μΉ μ λλ₯Ό λνλΈλ€. μλ < 0 μ΄λ©΄, μΌμͺ½μΌλ‘ κΌ¬λ¦¬κ° κΈ΄ λΆν¬ μλ = 0 μ΄λ©΄, μ’μ° λμΉ μλ > 0 μ΄λ©΄, μ€λ₯Έμͺ½μΌλ‘ κΌ¬λ¦¬κ° κΈ΄ λΆν¬ 첨λ(Kurtosis, 컀ν μμ€) λΆν¬μ λΎ°μ‘±ν μ λλ₯Ό λνλΈλ€.
μ©μ΄
μκ΄λΆμ μκ΄λΆμμ λ λ³μμ μ ν κ΄κ³λ₯Ό λΆμνλ κ²μ΄λ€.
λ³λκ³μ(Coefficient of Variation) νμ€νΈμ°¨λ₯Ό μ°μ νκ· μΌλ‘ λλ κ²μΌλ‘ μλνμ€νΈμ°¨λΌκ³ λ λΆλ¦°λ€. λ³λ κ°μμ κ°μ΄ ν΄μλ‘ μλμ μΈ μ°¨μ΄κ° ν¬λ€λ μλ―Έμ΄λ€ μ) μλ§λ¦¬μμ 1μΈλΉ κ΅λ―Ό μλ νκ· 50λ¬λ¬, νμ€νΈμ°¨κ° 5μ΄κ³ , λΆνμ 1μΈλΉ κ΅λ―Ό μλμ΄ 20λ¬λ¬, νμ€νΈμ°¨κ° 5μΌ κ²½μ°, λ λλΌμ νμ€νΈμ°¨κ° κ°λλΌλ μΈ‘μ λ¨μκ° λ€λ₯΄λ―λ‘ λΉλΆκ²©μ°¨κ° κ°λ€κ³ ν μ μλ€. μλ§λ¦¬μκ° λ³λκ³μ 10%μ΄κ³ , λΆνμ΄ 25%μ΄λ―λ‘, λΆνμ΄ λΉλΆκ²©μ°¨κ° λ μ¬νλ€κ³ λ§ν μ μλ€.
λ³μ΄(variability) λ°μ΄ν°κ° μΌλ§λ λ°μ§ν΄ μλμ§ νΉμ νΌμ Έμλμ§λ₯Ό λνλ΄λ μ°ν¬λ(dispersion)μ΄λ€. λ³μ΄ ν΅κ³λ λΆμ°(variance) νΉμ νκ· μ κ³±μ€μ°¨(MSE, Mean Square Error)κ° λ³μ΄ ν΅κ³λμ ν΄λΉλλ€.
λΆνΈμΆμ λ μ΄λ€ μΆμ λμ κΈ°λκ°μ΄ μΆμ νκ³ μ νλ λͺ¨μμ κ°μμ§λ μΆμ λμ λ§νλ€
Last updated