피어슨 상관분석 spss - pieoseun sang-gwanbunseog spss

 안녕하세요 풍요로운 쫑아입니다. 오늘은 상관관계 분석에 대해 알아보도록 하겠습니다. 일반적으로 상관관계 분석은 두 변수가 모두 연속적인 변수일 때 활용하는 피어슨의 상관관계 검증방법을 이용합니다. 상관관계는 말그대로 두 변수 사이의 관계를 살펴보는 것입니다. 예를 들면 소득과 삶의 만족도와의 관계가 있을수 있습니다. 그리고 상관관계는 독립변수와 종속변수의 관계가 불분명하고 두 변수의 상호 관련성만을 파악하고자 할 때 주로 사용됩니다. 즉, 소득이 높아서 삶의 만족도가 높아진다고 생각할 수 있지만 반대로 삶의 만족도가 높기 때문에 소득이 높아질 가능성도 있습니다. 이런 경우 독립변수와 종속변수의 관계가 모호하다고 할 수 있습니다. 

 서론이 길었습니다. 여기서는 소득과 삶의 만족도 변수를 활용하여 상관관계 분석을 해보도록 하겠습니다. 영가설은 '소득과 삶의 만족도간에 상관관계가 없다'라고 세워줍니다. 

피어슨 상관분석 spss - pieoseun sang-gwanbunseog spss
그림 1

 그림 1을 보시면 SPSS 프로그램에서 소득 변수와 삶의 만족도 변수가 입력되어 있는 것을 알 수 있습니다. 소득은 만원 단위이며, 삶의 만족도는 10점 척도입니다. 점수가 높을 수록 만족도가 높음을 의미합니다. 

피어슨 상관분석 spss - pieoseun sang-gwanbunseog spss
그림 2

 이제 본격적으로 상관관계 분석을 위해 위의 그림2 처럼 분석 -> 상관분석 -> 이변량 상관을 차례대로 눌러줍니다. 

피어슨 상관분석 spss - pieoseun sang-gwanbunseog spss
그림 3

 위의 그림 3을 봐주시길 바랍니다. 그림 상으로는 소득과 삶의 만족도가 오른쪽 변수 박스에 들어가 있는데 처음에는 왼쪽 박스에 위치해 있습니다. 두 변수를 오른쪽에 변수 박스에 넣어주시면 위의 그림과 같이 됩니다.

피어슨 상관분석 spss - pieoseun sang-gwanbunseog spss
그림 4

  이제 그림4에서 빨간 박스 안의 옵션을 눌러줍니다. 그럼 아래 그림5와 같은 작은 창이 뜨게 됩니다.

피어슨 상관분석 spss - pieoseun sang-gwanbunseog spss
그림 5

 일반적으로 상단의 통계량 박스에서 '평균과 표준편차'에 체크를 해줍니다. 그런데 계속을 눌러줍니다. 

피어슨 상관분석 spss - pieoseun sang-gwanbunseog spss
그림 6

 마지막으로 확인을 눌러 소득과 삶의 만족도 간의 상관관계를 분석해봅시다. 

피어슨 상관분석 spss - pieoseun sang-gwanbunseog spss
그림 7

 그림7과 같이 결과값이 도출되어 나타납니다. 먼저, 가장 상단에는 기술통계량에 대한 결과표가 나타납니다. 우리가 그림5에서 '평균과 표준편차'를 체크해준 결과표입니다. 소득의 평균은 228.07만원이고, 표준화 편차는 77.9입니다. 그리고 삶의 만족도 평균은 6.70점, 표준편차는 2.231입니다.

 그리고 두번째 표가 상관관계의 결과값을 나타냅니다. 소득과 삶의 만족도가 각각 행과 열에 위치해있습니다. 우리는 소득과 삶의 만족도가 만나는 지점을 보고 판단하면 됩니다. Pearson 상관이라고 되어있는 곳의 첫 번째 행을 보면 1과 0.823이라는 수치가 나타납니다. 1은 소득과 소득 사이의 상관관계를 나타내므로 1로 나타납니다. 참고로 이를 상관계수라고 하며 r로 표시합니다. 상관계수는 크기는 -1과 1사이에 항상 위치해있습니다. 여기서 0.823이 소득과 삶의 만족도간의 상관계수를 나타냅니다. 

 결론적으로 소득과 삶의 만족도는 +0.823으로 강한 양의 상관관계를 나타낸다고 볼 수 있습니다. 즉, 이를 풀어서 설명하면 소득이 올라가면 삶의 만족도도 올라가는 데 그 수준이 0.823 만큼이라고 보면 됩니다. 

 그 밑에 유의확률은 상관계수가 유의미 한지를 보는 것입니다. 이 유의확률이 0.05보다 작으면 위의 상관계수인 0.823이 유의하다고 볼 수 있습니다. 

안녕하세요, 산격동 너구리입니다.

이번 포스팅은,

SPSS를 이용한 "피어슨 상관 계수"입니다.


개요

피어슨 상관 계수란??
두 변수의 선형 상관 관계를 계량화한 수치입니다.

결과값은 -1 ~ 1 사이의 값이며,

양의 상관 관계가 있을수록 1에 가깝고, 음의 상관 관계가 있을수록 -1에 가깝습니다.

또한, 상관 관계가 없을수록 0에 가깝습니다.

 가정
1. 두 변수는 연속형 변수이다.2. 두 변수는 정규분포를 따른다.
    (간혹 한 변수만 정규분포를 따라도 된다고는 하지만, 이론적으로는 두 변수 모두 정규분포를 따라야합니다.)

3. 두 변수는 선형 관계를 가진다.

위의 가정 외에도 신경 써야하는 부분이 있습니다.

바로 이상치입니다.

극단적으로 값이 크거나 작은 경우가 포함되어 있으면 결과가 왜곡될 수 있습니다.

 가설
귀무가설 : 상관계수는 0이다(=상관 관계가 없다).대립가설 : 상관계수는 0이 아니다(=상관 관계가 있다).

보통 상관 분석을 하면 상관계수와 p-value가 함께 나올텐데요,

p-value가 0.05이상인 경우에는 함께 보여지는 상관계수가 큰 의미가 없습니다.

귀무가설 자체가 "상관 계수는 0이다."이기 때문에 p-value가 0.05미만일 때에만 상관계수가 의미를 가집니다.


예제

13. [산격동 너구리] 상관 분석 예제.csv

0.01MB

이번 예제로는 변수 3개를 준비했는데, 특별하게 의미를 정의하진 않을게요.

상상력에 한계가;;;;;;;;

그리고 이번 데이터는 분석 가정에 완벽하게 부합하지는 않습니다.

최대한 현실적이면서도, 가정에 완벽한 데이터를 만드는 것도 쉽지는 않네요.

가정이 정확하게 맞진 않지만, 분석 방법이나 절차에 집중해서 봐주시면 되겠습니다.

그리고, 조금 현실적인 이야기인데...

의외로 피어슨 상관계수를 구하면서 가정에 대해 완벽히 체크하는 경우는 흔치 않습니다...

데이터 불러오기
피어슨 상관분석 spss - pieoseun sang-gwanbunseog spss
가정

1. 선형성 가정

보통은 산점도를 보고 확인합니다.

피어슨 상관분석 spss - pieoseun sang-gwanbunseog spss
피어슨 상관분석 spss - pieoseun sang-gwanbunseog spss
피어슨 상관분석 spss - pieoseun sang-gwanbunseog spss
피어슨 상관분석 spss - pieoseun sang-gwanbunseog spss

VAR2와 VAR3간에 선형성이 보이는 것 같고, 나머지 관계에서는 조금 애매해보입니다.

만약, 선형성에 대해 엄밀하게 따진다면 VAR2와 VAR3간에서만 피어슨 상관 분석을 실시하게 되겠네요.

그보다 더 엄밀하게 따진다면, 어떤 관계에서도 선형성이 없다고 할 수 있겠지만요..ㅎ

따라서, 선형성 부분은 어느정도 주관이 개입될 수 밖에 없습니다.

2. 정규성 가정

피어슨 상관분석 spss - pieoseun sang-gwanbunseog spss
피어슨 상관분석 spss - pieoseun sang-gwanbunseog spss
피어슨 상관분석 spss - pieoseun sang-gwanbunseog spss

지금 결과로 보면 VAR2를 제외한 나머지 변수에서 정규성 가정이 만족되지 않습니다.

이것도 엄밀하게 따지자면 피어슨 상관 분석을 하기에는 무리가 있습니다.

[현실]

그렇지만,,,,아까 말씀드린 것처럼 상관 분석의 가정을 깊게 따지지 않는 경우도 많습니다.

연구 분야나 목표 저널에 맞춰서 융통성있게 하시는게 더 현실적이지 않을까싶습니다.

[추가 내용]

피어슨 상관 계수의 정규성 가정을 정확하게 표현하면,

"두 변수는 이변량 정규분포를 따른다."입니다.

하지만, 이변량 정규분포에 대한 정규성 검정이 쉽지 않기 때문에

각 변수에 대한 정규성 검정을 통해서 두 변수가 정규성을 만족하는지 확인하는 것으로 대체합니다.

두 변수가 각각 정규분포라도 이변량 정규분포가 되는지는 확실치 않습니다.

그렇기 때문에 두 변수가 정규성을 만족한다는 것 자체도 이미 완화된 가정이라고 생각할 수 있습니다.

가설
귀무가설 : 두 변수 간 상관계수는 0이다(=상관 관계가 없다).대립가설 : 두 변수 간 상관계수는 0이 아니다(=상관 관계가 있다).
피어슨 상관 분석
피어슨 상관분석 spss - pieoseun sang-gwanbunseog spss
피어슨 상관분석 spss - pieoseun sang-gwanbunseog spss
피어슨 상관분석 spss - pieoseun sang-gwanbunseog spss

상관 계수와 그에 대응되는 p-value가 행렬 형태로 출력됩니다.

피어슨 상관 분석 결과,

모든 변수 간 상관 계수는 유의한 것으로 나옵니다.

따라서, 변수들 간에 유의한 상관 관계가 있음을 확인할 수 있습니다.

상관 계수의 부호에 따라 양의 상관 관계 또는 음의 상관 관계인 것을 확인하시면 됩니다.

참고로 목록별 결측값과 대응별 결측값의 차이는,

목록별 결측값 제외는 사용한 모든 변수에 대해서 결측값이 없는 케이스만 사용하는 것이고,

대응별 결측값 제외는 상관 계수를 계산하는 두 변수에 대해 결측값이 없는 케이스만 사용합니다.

따라서, 목록별 결측값으로 하면 모든 경우에 대해서 N이 같지만,

대응별 결측값으로 하면 경우에 따라 달라질 수도 있습니다.

지금 예제는 결측값이 없으니 어떤 것으로 해도 같은 결과가 나옵니다.


이것으로 SPSS를 이용한 피어슨 상관 계수에 대해 마치도록 하겠습니다.

이상, 산격동 너구리였습니다.

감사합니다.

* 잘못된 정보 및 오타가 포함되어 있을 수 있습니다.

  그대로 받아들이시기보다는 다른 사람의 의견도 참고하셔서 분석하시길 바랍니다.

* 포스팅 내용 및 통계 분석 관련 질문은 언제나 환영입니다.

  가능한 선에서 최대한 답변하도록 하겠습니다.