회사에서 일하다보면 추세 분석 및 예측을 하는 경우가 빈번히 있다. 

그때마다 매번 평균값에 근거한 간단한 통계분석 정리만 하다보니, 이것이 얼마나 타당한지에 대한 의문이 많이 든다.

좀 더 체계적인 분석을 알아보고 싶어 찾아본 책이 "빅데이터를 지배하는 통계의 힘"이란 책!!

책 내용 자체는 고등학교, 대학교떄 배운 통계에서 크게 벗어나지 않으며, 이를 실무에서 활용할 수 있는 방법에 대해 정리한 책 인것 같다.

책의 내용을 그대로 다 옮길순 없으므로 내가 이해한 부분을 까먹지 않게 부분적으로 정리할 예정~! (실제 책의 내용과 다소 다를수 있음) 


1. 인과 관계 파악에 중요한 '평균'의 본질 

< 예제 1 > 

* 'A'회사엔 총 8명의 직원과 1명의 임원이 있다

* 8명의 직원들은 300만원의 연봉을 받는다 

* 1명의 임원은 2,100만원의 연봉을 받는다.

* 여기서 'A'회사의 평균연봉, 최빈수, 중앙값은 다음과 같다 

  ㄴ 평균 :  500만원 (300만원 * 8명 + 2100만원*1)/9 = 500만원 

  ㄴ 최빈수 : 300만원 (가장 많은 수의 직원에 해당하는 연봉 300만원) 

  ㄴ 중앙값 : 300만원 (9명중 한가운데인 5번째 직원의 연봉)

 * 내가 '직원'으로서 'A'회사에 입사한다면 연봉은 500만원이 아닌 300만원을 받기될 것이기에 평균보다 최빈수, 중앙값이 더 정확할것이다. 

 * 그렇다면 평균보다 최빈수, 중앙값이 더 정확하고 좋은 방법이라 말할 수 있는가??



2. 평균이 중앙값보다 유용한 까닭은?

< 평균이 중앙값보다 유용한 까닭 > 

* 인과관계의 통찰이라는 관점에서, '뭔가의 요인을 바꾸면 결과값의 총량이 어떻게 변하는가'라는 측면에서 평균값 사용이 더 정확하다  

* '예제 1'에서 직원 6,7,8번째의 연봉이 100만원씩 올랐다고 해도 중앙값은 여전히 300만원이다. (평균값은 500만원에서 533.3만원으로 증가) 

* 여기서 당신이 재무직원으로 회사의 인건비를 계산해야 한다면 어떤 값을 사용하겠는가?

  -  평균값은 극단적으로 값이 편중되어 있더라도, 전체적으로 평균연봉이 얼마나 변했는가 하는 증감을 아는데 적합하다   

  -  반면 중앙값은 총량에 미치는 영향이 어떻게 되는지 계산하기 어렵다. 

* 무엇보다 평균값이 좋은 추정방법이 되는 이유는 다음과 같다 

< 평균값이 좋은 추정법인 이유 >   

 - 실무에서 획득하는 대부분의 데이터들은 불규칙성을 띄고 있다. 

  - 불규칙성이 있다고는 하나 대다수의 데이터는 '정규분포'를 띈다 (정규분포 Normal distribution) 

  - 데이터가 정규분포를 따르지 않더라도 '데이터를 거듭 추가 할 수록' 정규분포에 수렴한다 (중심극한정리, Central limit theorem

  ▶ 데이터의 불규칙성이 정규분포를 따르고 있으면, 최소제곱법이 가장 좋은 추정법이고, 그 결과 평균값이 가장 좋은 추정법이 된다 

* 최소제곱법(Method of least squares) 

 : 어떤 건물의 높이를 추정할때 2m 높게 혹은 2m낮게 추정한다고 해도 제곱하면 4의 차이가 발생 

 : 본래의 차이가 (+)이든 (-)이든 '차이의 제곱'은 0이상의 값이 되며, 이것을 모두 더했을 때 가장 작은값을 '참값'으로 추정


3. 정규분포 

 

< 정규분포와 중심극한정리 >

* 대다수의 데이터는 정규분포를 따르며, 데이터가 정규분포를 따르지 않는다고 해도 데이터 값을 거듭 추가 할 수록 정규분포에 수렴한다  

* 데이터 값을 몇개 추가한 것이 정규분포를 따르면, 거기에 다시 '추가한 데이터의 수'로 나눈 값인 평균값도 정규분포에 수렴한다


4. 표준편차

(1) 사분위점

 - 현상을 이해하기 위해서는 데이터를 '구간'으로 보아야 한다 

 - 평균 객단가가 3000원인 경우 대다수의 고객이 3000원을 쓴다는 것인지, 아니면 100원 쓰는 사람, 1만원 쓰는 사람이 공존해있는지 알 수 없음 

 - 데이터의 최대값, 최소값을 선정할때 덜 극단적인 위치에 있는 값을 사용하기 위해 보통 '사분위점' 25%, 75%를 사용 (or 10%/90%, 5%/95% 사용)

 - 사분위점 사용시 극단적인 값에 휘둘리지 않고 '이 범위 부근에 데이터가 존재한다'는 것을 나타낼 수 있음 


(2) 분산 

 - 데이터에 내포된 불규칙성을 알아보려면 '분산'을 확인 

 - 평균이란  '참값에서 벗어난 값의 제곱합'을 가리키는데 이를 사용하면 불규칙성이 큰지 작은지 알 수 있음 

  ㄴ (!) 벗어난 값 -> 편차 

- 위 그림은 A매장의 고객 3명을 대상으로 서비스 만족도를 10점 만점으로 평가한 결과. 각 참가자의 '평균값에서 벗어난 값의 제곱'을 모두 더하면 38이라는 값을 얻을 수 있음 

- 허나 이런 방식으로 판단시 데이터 수가 늘수록 합이 커지는 문제가 있음(!!!) 

  ㄴ 동일한 설문조사를 B매장에서 40명을 대상으로 했을때 20명은 6점, 20명은 8점을 준 경우, 평균값은 7로 동일하지만 평균에서 +-1점된 점수를 모두 합한값은 40이 됨 (20*1 + 20*1 = 40)

  ㄴ 즉 '벗어난 값의 제곱합'은 데이터가 늘면 늘수록 동일한 불규칙성을 내포하고 있는 데이터도 많아지기 때문

  ㄴ 이 경우 '벗어난 값의 제곱합'대신 '벗어난 값의 제곱 평균'을 사용하면 어느정도 정리된 불규칙성을 표현 가능 (38/3 =  12.7 <<-- 벗어난 값의 제곱 평균)  


(3) 표준편차 

 - 분산에 루트(√)를 씌워 얻어진 값을 '표준편차 (Standard Deviation, SD)' 이라 함

  ㄴ 분산은 제곱된 값이기 때문에 실질적인 치우침에 비해 그 값이 크다. 따라서 루트를 사용하여 값을 조정하며 이것을 표준편차라고 부름 

 - 위 그림의 분산(편차 제곱의 평균)은 12.7, 표준편차(분산값에 루트 적용)는 3.6


(4) 정리 

1. 평균 

 : 개별 데이터의 점수를 데이터의 수만큼 나누기 

 : 2+9+10 / 3 = 7 


2. 분산 

 : 편차 제곱의 평균  

 : (-5^2)+(+2^2)+(+3^2) / 3 = 12.7


3. 표준편차  

 : 분산값에 v 적용 

 : = 3.6



5. 평균과 표준편차를 알면???

* 평균, 표준편차를 조합하면 '대략 이 범위 부근에 데이터가 존재한다'는 현상 파악이 가능 

* 데이터가 불규칙성이 있더라도 평균값-2SD(표준편차의 2배) ~ 평균값+2SD까지의 범위에 반드시 전체의 3/4이상의 데이터가 존재함 

 - 심지어 정규분포를 따르지 않고 평균값 주면에 값이 존재하는 데이터 일지라도 (양극단에 데이터가 밀집) 평균값 2SD 범위안에 3/4이상의 데이터가 존재 

* 정규분포를 따르는 데이터라면 평균값2SD 범위에 95% 데이터가 존재 



+ Recent posts