회사에서 일하다보면 추세 분석 및 예측을 하는 경우가 빈번히 있다.
그때마다 매번 평균값에 근거한 간단한 통계분석 정리만 하다보니, 이것이 얼마나 타당한지에 대한 의문이 많이 든다.
좀 더 체계적인 분석을 알아보고 싶어 찾아본 책이 "빅데이터를 지배하는 통계의 힘"이란 책!!
책 내용 자체는 고등학교, 대학교떄 배운 통계에서 크게 벗어나지 않으며, 이를 실무에서 활용할 수 있는 방법에 대해 정리한 책 인것 같다.
책의 내용을 그대로 다 옮길순 없으므로 내가 이해한 부분을 까먹지 않게 부분적으로 정리할 예정~! (실제 책의 내용과 다소 다를수 있음)
1. 인과 관계 파악에 중요한 '평균'의 본질
< 예제 1 > * 'A'회사엔 총 8명의 직원과 1명의 임원이 있다 * 8명의 직원들은 300만원의 연봉을 받는다 * 1명의 임원은 2,100만원의 연봉을 받는다. * 여기서 'A'회사의 평균연봉, 최빈수, 중앙값은 다음과 같다 ㄴ 평균 : 500만원 (300만원 * 8명 + 2100만원*1)/9 = 500만원 ㄴ 최빈수 : 300만원 (가장 많은 수의 직원에 해당하는 연봉 300만원) ㄴ 중앙값 : 300만원 (9명중 한가운데인 5번째 직원의 연봉) |
* 내가 '직원'으로서 'A'회사에 입사한다면 연봉은 500만원이 아닌 300만원을 받기될 것이기에 평균보다 최빈수, 중앙값이 더 정확할것이다.
* 그렇다면 평균보다 최빈수, 중앙값이 더 정확하고 좋은 방법이라 말할 수 있는가??
2. 평균이 중앙값보다 유용한 까닭은?
< 평균이 중앙값보다 유용한 까닭 > * 인과관계의 통찰이라는 관점에서, '뭔가의 요인을 바꾸면 결과값의 총량이 어떻게 변하는가'라는 측면에서 평균값 사용이 더 정확하다 |
* '예제 1'에서 직원 6,7,8번째의 연봉이 100만원씩 올랐다고 해도 중앙값은 여전히 300만원이다. (평균값은 500만원에서 533.3만원으로 증가)
* 여기서 당신이 재무직원으로 회사의 인건비를 계산해야 한다면 어떤 값을 사용하겠는가?
- 평균값은 극단적으로 값이 편중되어 있더라도, 전체적으로 평균연봉이 얼마나 변했는가 하는 증감을 아는데 적합하다
- 반면 중앙값은 총량에 미치는 영향이 어떻게 되는지 계산하기 어렵다.
* 무엇보다 평균값이 좋은 추정방법이 되는 이유는 다음과 같다
< 평균값이 좋은 추정법인 이유 > - 실무에서 획득하는 대부분의 데이터들은 불규칙성을 띄고 있다. - 불규칙성이 있다고는 하나 대다수의 데이터는 '정규분포'를 띈다 (정규분포 Normal distribution) - 데이터가 정규분포를 따르지 않더라도 '데이터를 거듭 추가 할 수록' 정규분포에 수렴한다 (중심극한정리, Central limit theorem) ▶ 데이터의 불규칙성이 정규분포를 따르고 있으면, 최소제곱법이 가장 좋은 추정법이고, 그 결과 평균값이 가장 좋은 추정법이 된다 * 최소제곱법(Method of least squares) : 어떤 건물의 높이를 추정할때 2m 높게 혹은 2m낮게 추정한다고 해도 제곱하면 4의 차이가 발생 : 본래의 차이가 (+)이든 (-)이든 '차이의 제곱'은 0이상의 값이 되며, 이것을 모두 더했을 때 가장 작은값을 '참값'으로 추정 |
3. 정규분포
< 정규분포와 중심극한정리 > * 대다수의 데이터는 정규분포를 따르며, 데이터가 정규분포를 따르지 않는다고 해도 데이터 값을 거듭 추가 할 수록 정규분포에 수렴한다 * 데이터 값을 몇개 추가한 것이 정규분포를 따르면, 거기에 다시 '추가한 데이터의 수'로 나눈 값인 평균값도 정규분포에 수렴한다 |
4. 표준편차
(1) 사분위점
- 현상을 이해하기 위해서는 데이터를 '구간'으로 보아야 한다
- 평균 객단가가 3000원인 경우 대다수의 고객이 3000원을 쓴다는 것인지, 아니면 100원 쓰는 사람, 1만원 쓰는 사람이 공존해있는지 알 수 없음
- 데이터의 최대값, 최소값을 선정할때 덜 극단적인 위치에 있는 값을 사용하기 위해 보통 '사분위점' 25%, 75%를 사용 (or 10%/90%, 5%/95% 사용)
- 사분위점 사용시 극단적인 값에 휘둘리지 않고 '이 범위 부근에 데이터가 존재한다'는 것을 나타낼 수 있음
(2) 분산
- 데이터에 내포된 불규칙성을 알아보려면 '분산'을 확인
- 평균이란 '참값에서 벗어난 값의 제곱합'을 가리키는데 이를 사용하면 불규칙성이 큰지 작은지 알 수 있음
ㄴ (!) 벗어난 값 -> 편차
- 위 그림은 A매장의 고객 3명을 대상으로 서비스 만족도를 10점 만점으로 평가한 결과. 각 참가자의 '평균값에서 벗어난 값의 제곱'을 모두 더하면 38이라는 값을 얻을 수 있음
- 허나 이런 방식으로 판단시 데이터 수가 늘수록 합이 커지는 문제가 있음(!!!)
ㄴ 동일한 설문조사를 B매장에서 40명을 대상으로 했을때 20명은 6점, 20명은 8점을 준 경우, 평균값은 7로 동일하지만 평균에서 +-1점된 점수를 모두 합한값은 40이 됨 (20*1 + 20*1 = 40)
ㄴ 즉 '벗어난 값의 제곱합'은 데이터가 늘면 늘수록 동일한 불규칙성을 내포하고 있는 데이터도 많아지기 때문
ㄴ 이 경우 '벗어난 값의 제곱합'대신 '벗어난 값의 제곱 평균'을 사용하면 어느정도 정리된 불규칙성을 표현 가능 (38/3 = 12.7 <<-- 벗어난 값의 제곱 평균)
(3) 표준편차
- 분산에 루트(√)를 씌워 얻어진 값을 '표준편차 (Standard Deviation, SD)' 이라 함
ㄴ 분산은 제곱된 값이기 때문에 실질적인 치우침에 비해 그 값이 크다. 따라서 루트를 사용하여 값을 조정하며 이것을 표준편차라고 부름
- 위 그림의 분산(편차 제곱의 평균)은 12.7, 표준편차(분산값에 루트 적용)는 3.6
(4) 정리
1. 평균 : 개별 데이터의 점수를 데이터의 수만큼 나누기 : 2+9+10 / 3 = 7
2. 분산 : 편차 제곱의 평균 : (-5^2)+(+2^2)+(+3^2) / 3 = 12.7
3. 표준편차 : 분산값에 v 적용 : = 3.6 |
5. 평균과 표준편차를 알면???
* 평균, 표준편차를 조합하면 '대략 이 범위 부근에 데이터가 존재한다'는 현상 파악이 가능
* 데이터가 불규칙성이 있더라도 평균값-2SD(표준편차의 2배) ~ 평균값+2SD까지의 범위에 반드시 전체의 3/4이상의 데이터가 존재함
- 심지어 정규분포를 따르지 않고 평균값 주면에 값이 존재하는 데이터 일지라도 (양극단에 데이터가 밀집) 평균값 2SD 범위안에 3/4이상의 데이터가 존재
* 정규분포를 따르는 데이터라면 평균값2SD 범위에 95% 데이터가 존재