본문 바로가기

수학/확률과 통계

통계의 종류

반응형

통계는 크게 두 가지로 나눌 수 있습니다.

  • 기술통계(학) : 우리가 흔히 아는 흔히 생각하는 통계로 그래프, 표, 또는 대표값들이 기술통계에 해당합니다.
  • 추측통계(학) : 주로 전체 데이터(예를 들면 전세계 있는 암환자, 사람들의 소비 방식)에서 분석을 할 때 일부(흔히 표본이라 불리는  전세계 암환자 -> 대한민국에 있는 암환자)를 추출하여 관측된 내용들을 근거로 하여 전체 데이터를 추측하고 검정하는 방법을 말합니다.

 

추측 통계는 기술통계의 연장선이라는 느낌이 강합니다. 만약 내가 분석하고 싶은 데이터가 없어서 수집을 못하거나 너무 많아서 일일이 수집하기 어려울 때 추측 통계를 많이 사용합니다. 흔히 우리는 모집단(전체 데이터)에서 일부를 표본(일부 데이터)으로 추출하여 표본에서 나온 통계량을 바탕으로 모집단의 특성을 파악합니다.

 

하지만 이러한 방법은 '표본에서 추출한 모집단의 특성이 틀리면 어떻게 해야하는가'라는 치명적인 문제가 있습니다. 그래서 앞으로 나올 내용들 모두 제가 생각하기에는 이 치명적인 단점을 해결하기 위해 생겨났고 발전해왔다고 볼 수 있을거 같습니다. 

 

통계학을 전공이 아니거나 그저 데이터 분석하는 이들은 대부분이 단순히 기술 통계에서 데이터를 나타내고 분석을 하실거 같다는 생각이 드는데 이번 기회에 저와 같이 연장해서 추측 통계도 데이터 분석에 쓰시면 유용하고 도움이 많이 되실거 같습니다. 저 또한 대학교에서 공부하면서 통계를 통해 더 좋은 방향으로 제시하기도 했습니다. 통계 또한 크게 2가지로 나뉘지만 데이터 또한 크게 2가지로 나눠 볼 수 있습니다

  • 질적 자료 : 흔히 구분 지을 수 있는 것들로 성별이나 혈액형 그리고 등수로 생각하시면 될 듯합니다.
    • 명목형 : 대표적으로 성별을 예로 들 수 있는데 자료값의 크기나 순서에 대한 의미가 없고 자료값 자체의 이름만 의미 부여를 할 수 있는 변수입니다.
    • 순서형 : 어떤 기준에 따라 자료값들의 순서에 의미를 부여 할 수 있는 자료들입니다. 대표적으로는 성적을 예로 들 수 있습니다.
    • 범주형 : 명목형 자료를 범주형 자료라고 부르기도 합니
  • 양적자료 : 길이, 무게 자동차 생산대수 등과 같이 많고 적음을 나타내는 수치로 된 자료들을 말합니다. 이 데이터들은 사칙연산을 해도 무관합니다.
    • 구간형 : 대표적으로 수능 영어등급을 예로 들 수 있습니다. 특정 구간에는 의미를 부여 할 수 있지만 비율에는 의미를 부여할 수 없는 자료로 생각하시면 됩니다. 대표적으로 영어 1등급이 90~100이라고 할 때 구간에 속한 것은 의미가 있지만 1등급 비율이 40% 이상이라는 정보는 의미가 없다라고 해석하시면 될 듯합니다.
    • 비율형 : 대표적으로 길이나 무게를 생각하시면 됩니다. 키가 180cm이다는 우리나라에서 키가 큰편이라는 구간이기도 하지만 예를 들어 180cm가 대한민국에서는 20%정도 된다라는 비율 자체도 의미가 있다고 생각하시면 됩니다. 
    • 계수형 : 자료가 셀 수 있는 이산적인 데이터일 때 
    • 연속형  : 자료가 셀 수 없는 소수점을 포함하는 데이터 일 때

앞으로 추측 통계 위주로 알아볼 예정입니다. 기술통계에 주로 잘 쓰이는 대표값은

https://startagainbornagain.tistory.com/141

 

대표값

오늘은 간단하게 대푯값에 대하여 알아보겠습니다. 대푯값이란 어떤 모집단이나 표본의 대표적인 값을 이야기를 합니다. 주로 우리가 흔히 아는 평균이 대푯값에서 가장 많이 사용하고 있습니

startagainbornagain.tistory.com

여길 참고해주시면 되겠습니다.

 

 

 

 

반응형
LIST

'수학 > 확률과 통계' 카테고리의 다른 글

통계 이산확률분포란  (0) 2023.11.08
통계 확률변수와 확률분포  (0) 2022.12.30
대표값  (2) 2022.09.21
확률과 통계1: 평균, 편차, 분산, 표준편차  (0) 2021.11.17