susinlee 님의 블로그

4. 데이터의 경향 파악하기 - 그래프 그리기 본문

학습/통계학

4. 데이터의 경향 파악하기 - 그래프 그리기

susinlee 2025. 1. 15. 22:21

2. 데이터의 경향을 시각적으로 파악하기

데이터를 그래프로 시각화하면 숫자만으로 확인하기 어려운 분포와 경향을 직관적으로 이해할 수 있습니다. 대표적인 시각화 방법을 소개하겠습니다.

분포를 한눈에 볼 수 있는 시각화 기법

 

시각화에서도 데이터의 유형별로 방법이 달라집니다.

 

1. 범주형 변수의 시각화

 

먼저 범주형 변수의 경우 도수분포표로 요약할 수 있습니다. 이는 각 범주에 해당하는 관측값의 개수(도수)를 나타내거나,전체 관측값 중 각 범주가 차지하는 비율(상대도수)로 표현합니다. 

 

  • 도수분포표 그리기
data = sns.load_dataset('titanic')
data.value_counts('embarked').to_frame()

도수분포표

 

이렇게 요약한 데이터를 시각화하는 방법은 다음과 같습니다.

  • 원형 그래프
    • 원형 그래프는 원을 그리고, 이를 상대도수에 비례하도록 중심각을 나누어 각 범주에 할당하는 방식으로 나타냅니다.
  • 막대 그래프
    • 각 범주의 도수 크기를 막대의 높이로 표현합니다. 이를 통해 범주별 데이터를 비교할 수 있습니다. 파이썬에서는 seaborn의 countplot() 을 사용해 손쉽게 그릴 수 있으며, hue 매개변수를 통해 범주별로 색상을 다르게 설정할 수도 있습니다.

 

  • 원형 그래프 그리기
table = df.value_counts('embarked').to_frame()
plt.pie(table['count'], labels=table.index, autopct='%.1f%%', explode=[0.01, 0.01, 0.01])
plt.show()

원형그래프

 

 

  • 막대 그래프 그리기
sns.countplot(x='embarked', data=data, hue='embarked')

 

막대그래프

 

2. 수치형 변수의 시각화

 

이산형 변수

  • 관측값의 종류가 적을 때:
    • 범주형 변수와 동일한 방식으로 도수분포표, 원형그래프, 막대그래프를 활요합니다.
  • 관측값의 종류가 많을 때:
    • 연속형 변수와 같은 방식으로 시각화하는 것이 적합합니다.

연속형 변수 

연속형 변수도 도수분포표로 요약할 수 있지만 모든 관측값을 개별적으로 다루기보다는 범위를 구간으로 나누어 각 구간에 포함되는 관측값의 개수를 세어야 합니다. 이를 시각화하는 방법은 다음과 같습니다.

  • 히스토그램
    • 도수분포표를 기초로 하여 각 구간에 대하여 범주형 변수에서의 막대그래프와 같은 모양의 그림을 그립니다.
  • 박스플롯
    • 데이터의 분포를 다섯 가지 통계량(최솟값, 제1사분위수, 중앙값, 제3사분위수, 최대값)을 사용하여 데이터 분포를 시각적으로 나타낸 그림입니다. 데이터의 분포와 이상치를 직관적으로 파악할 수 있습니다.
  • 바이올린플롯
    • 박스플롯과 비슷하지만, 데이터의 밀도 분포를 추가로 표현한 그래프 입니다.

 

  • 히스토그램 그리기
sns.histplot(x='age', data=data)

히스토그램

 

 

  • 박스플롯 그리기
sns.boxplot(x='age', data=data)

 

 

박스플롯 바깥쪽에 위치한 점들은 이상치를 의미합니다. 이상치는 사분위 범위(IQR)를 기준으로 정의되며, IQR은 Q3 - Q1 으로 계산됩니다. 일반적으로 다음 조건을 만족하는 데이터를 이상치로 간주합니다.

  • Q1 - IQR x 1.5 보다 작은 값
  • Q3 + IQR x 1.5 보다 큰값

이러한 방식으로 이상치를 정의하기도 하고, 데이터의 특성에 따라 다른 기준을 사용할 수도 있습니다. 예를 들어, 평균과 표준편차를 기준으로 평균에서 ± 2~3배 표준편차를 벗어나는 데이터를 이상치로 정의하기도 합니다.

 

 

  • 바이올릿 플롯 그리기
sns.violinplot(x='age', data=data)

 

바이올린 플롯

 


해당 페이지는 다음 자료들을 참고하여 작성하였습니다.

- 통계101x데이터 분석(아베 마사토)

- 통계학 : 파이썬을 이용한 분석 (인하대학교 통계학과)

 

'학습 > 통계학' 카테고리의 다른 글

5. 두 변수의 관계 파악하기  (0) 2025.01.15
3. 데이터의 경향 파악하기 - 수치로 요약하기  (0) 2025.01.15
2. 데이터의 유형  (0) 2025.01.11
1. 기초 통계학 소개  (0) 2025.01.10