사쿠의 데이터 블로그

[기초통계학] 자료의 요약(1) 본문

기초통계학

[기초통계학] 자료의 요약(1)

토스트먹어 2020. 2. 19. 10:13

이번 자료의 요약에서의 목적은 다음과 같다.

1. 자료의 형태를 구분

2. 범주형 자료의 요약 방법 확인

3. 이산형 자료의 요약 방법 확인

4. 연속형 자료의 요약 방법 확인


 

자료(Data)의 형태는 크게 수치 자료(numerical data)와 범주형 자료(categorical data)

2가지로 구분이 된다. 

타이타닉 생존자 데이터 예시

타이타닉 데이터를 예시로 보면 아래와 같이 구분할 수 있다.

수치 자료:  age, fare
범주형 자료: pclass, sex, sibsp, parch, survival

 

수치 자료란?

관측값이 수치로 측정되는 자료로, 키, 몸무게, 자동차 사고 건수 등이 있다

 

범주형 자료란?

관측값의 크기가 아니라 내용이 관심의 대상으로, 혈액형(A, B, O, AB), 지역(서울, 경기... ), 선호도

 

여기서 주의할 점은

범주형 자료와 수치자료의 구분은 자료가 숫자로 표현되는가의 여부에 따라 구분되는 것이 아니라는 것이다.

남자를 1로, 여자를 0으로 표시하는 것처럼 범주형 자료를 숫자로 표현하는 것은 실제로 흔히 있는 일이다. 이때, 1과 0은 남자와 여자라는 항목을 나타내기 위하여 편의상 사용된 부호에 불과하다. 2와 -2등 다른 숫자로 쓸 수 도 있다. 

# 변수를 사용할 때, Object 타입만 범주형일 것이라는 생각을 하면 안된다.
df.get_dtype_counts()

 


변수란?

관심이 되는 대상을 관측한 결과로서, 관측되는 특성을 변수(variable)라고 한다. (수치 변수, 범주형 변수 등이 있다)

'기초통계학' 카테고리의 다른 글

[기초통계학] 자료의요약(2)  (0) 2020.02.20
[기초통계] 통계학이란?  (0) 2020.02.18