Correlation Analysis

Correlation Analysis, Correlation Coefficient, Pearson, Spearman, Kendall

Correlation Analysis

두 λ³€μˆ˜κ°„μ˜ μ„ ν˜• 관계가 μžˆλŠ”μ§€ νŒŒμ•…ν•˜κΈ° μœ„ν•΄ μƒκ΄€κ³„μˆ˜(Correlation Coefficient , r)λ₯Ό κ΅¬ν•˜μ—¬ 상관뢄석을 ν•  수 μžˆλ‹€.

μƒκ΄€κ³„μˆ˜ r은 -1κ³Ό 1 μ‚¬μ΄μ˜ 값을 κ°€μ§€λ©°, μƒκ΄€κ³„μˆ˜κ°€ 0<r≀+1 이면 μ–‘μ˜ 상관, -1≀r<0 이면 음의 상관, r=0이면 μ„ ν˜• 관계가 μ—†λ‹€ 라고 ν•œλ‹€. μƒκ΄€κ΄€κ³„λŠ” κΈ°μšΈκΈ°κ°€ μ•„λ‹ˆκ³  μ§μ„ μ˜ 정도λ₯Ό λ‚˜νƒ€λ‚΄κΈ° λ•Œλ¬Έμ—, 기울기λ₯Ό μ•Œ μˆ˜λŠ” μ—†μ§€λ§Œ, Xλ³€μˆ˜μ™€ Yλ³€μˆ˜κ°€ μ„ ν˜•κ΄€κ³„κ°€ μ•„λ‹ˆλ©΄ κΈ°μšΈκΈ°λŠ” 0이고 μ„ ν˜•κ΄€κ³„μ΄λ©΄ κΈ°μšΈκΈ°κ°€ 0이 μ•„λ‹ˆλΌλŠ” 것을 μ•Œ μˆ˜λŠ” μžˆλ‹€.

상관뢄석은 μ˜¨λ„μ™€ μ „λ ₯μˆ˜μš”, ν†΅ν™”μ¦κ°€μœ¨κ³Ό λ¬Όκ°€μƒμŠΉλ₯  λ“±κ³Ό 같은 두 λ³€μˆ˜ κ°„μ˜ μ„ ν˜• 관계가 μžˆλŠ”μ§€ 뢄석할 λ•Œ μ‚¬μš©ν•œλ‹€.

상관뢄석할 λ•Œ μœ μ˜ν•  점은 μƒκ΄€κ³„μˆ˜κ°€ 크닀고 ν•΄μ„œ 상관성이 μžˆλ‹€κ³  ν•΄μ„ν•˜λ©΄ μ•ˆλ˜λ©°, μƒκ΄€κ³„μˆ˜κ°€ μž‘λ‹€κ³  ν•΄μ„œ 두 λ³€μˆ˜κ°„ 관계가 μ—†λŠ” 것도 μ•„λ‹ˆλ‹€. μƒκ΄€κ³„μˆ˜μ˜ μ ˆλŒ€κ°’μ΄ 1에 κ°€κΉŒμ›Œλ„ 두 λ³€μˆ˜μ˜ μ„ ν˜•μ„±μ΄ λšœλ ·ν•˜μ§€ μ•Šμ„ 수 μžˆλ‹€. λͺ‡ 개의 κ΄€μΈ‘μΉ˜λ‘œ 인해 관계가 μ—†λŠ” λ³€μˆ˜λ„ μƒκ΄€κ³„μˆ˜κ°€ λ†’μ•„μ§ˆ 수 있기 λ•Œλ¬Έμ΄λ‹€. λ˜ν•œ, μƒκ΄€κ³„μˆ˜λŠ” μ„ ν˜•μ„±λ§Œ νŒŒμ•…ν•΄ μ£ΌκΈ° λ•Œλ¬Έμ— 곑선관계가 μžˆλŠ”λ°λ„ μƒκ΄€κ³„μˆ˜κ°€ 0 일 수 μžˆλ‹€.

λ”°λΌμ„œ, 데이터에 Outlierκ°€ μ‘΄μž¬ν•˜λŠ”μ§€, 두 λ³€μˆ˜κ°„μ˜ λΉ„μ„ ν˜• 관계가 μžˆλŠ”μ§€λ„ νŒŒμ•…ν•΄λ΄μ•Ό ν•œλ‹€. μ‚°μ λ„λ‘œ μ΄μš©ν•΄ 데이터 뢄포λ₯Ό ν™•μΈν•΄μ„œ λ§Œμ•½, Outlier κ°€ μ‘΄μž¬ν•˜λ©΄ μ œκ±°ν•˜κ³  λΉ„μ„ ν˜• 관계가 μžˆλ‹€λ©΄ μ„ ν˜•μœΌλ‘œ λ°”κΎΈκ³  상관뢄석할 수 μžˆλ‹€.

μƒκ΄€κ³„μˆ˜ μ’…λ₯˜

Pearson Correlation Coefficient

ν”Όμ–΄μŠ¨ μƒκ΄€κ³„μˆ˜λŠ” ν‚€, 체쀑과 같은 μ—°μ†ν˜• λ°μ΄ν„°μ˜ μƒκ΄€κ³„μˆ˜λ₯Ό μΈ‘μ •ν•  λ•Œ μ‚¬μš©ν•œλ‹€. λͺ¨μˆ˜ 검정이닀.

Spearman / Kendall Correlation Coefficient

μŠ€ν”Όμ–΄λ§Œκ³Ό 켄달 μˆœμœ„ μƒκ΄€κ³„μˆ˜λŠ” 성적과 같은 μˆœμ„œν˜• 데이터 μƒκ΄€κ³„μˆ˜λ₯Ό μΈ‘μ •ν•  λ•Œ μ‚¬μš©ν•œλ‹€. λΉ„λͺ¨μˆ˜ 검정이닀. 켄달은 데이터가 동λ₯ μΌ λ•Œ 많이 μœ μš©ν•˜λ‹€.

두 λ³€μˆ˜ 간에 상관 관계가 μžˆλŠ”μ§€ 확인할 λ•Œ μƒκ΄€κ³„μˆ˜λ₯Ό κ΅¬ν•˜κ³  상관뢄석을 ν–ˆλ‹€λ©΄, 두 λ³€μˆ˜ κ°„μ˜ 인과 관계λ₯Ό νŒŒμ•…ν•  λ•ŒλŠ” κ²°μ •κ³„μˆ˜ κ΅¬ν•˜κ³  νšŒκ·€λΆ„μ„μ„ μˆ˜ν–‰ν•œλ‹€.

참고자료

https://bioinformaticsandme.tistory.com/58

Last updated

Was this helpful?