회사에서 일하다보면 추세 분석 및 예측을 하는 경우가 빈번히 있다. 

그때마다 매번 평균값에 근거한 간단한 통계분석 정리만 하다보니, 이것이 얼마나 타당한지에 대한 의문이 많이 든다.

좀 더 체계적인 분석을 알아보고 싶어 찾아본 책이 "빅데이터를 지배하는 통계의 힘"이란 책!!

책 내용 자체는 고등학교, 대학교떄 배운 통계에서 크게 벗어나지 않으며, 이를 실무에서 활용할 수 있는 방법에 대해 정리한 책 인것 같다.

책의 내용을 그대로 다 옮길순 없으므로 내가 이해한 부분을 까먹지 않게 부분적으로 정리할 예정~! (실제 책의 내용과 다소 다를수 있음) 


1. 인과 관계 파악에 중요한 '평균'의 본질 

< 예제 1 > 

* 'A'회사엔 총 8명의 직원과 1명의 임원이 있다

* 8명의 직원들은 300만원의 연봉을 받는다 

* 1명의 임원은 2,100만원의 연봉을 받는다.

* 여기서 'A'회사의 평균연봉, 최빈수, 중앙값은 다음과 같다 

  ㄴ 평균 :  500만원 (300만원 * 8명 + 2100만원*1)/9 = 500만원 

  ㄴ 최빈수 : 300만원 (가장 많은 수의 직원에 해당하는 연봉 300만원) 

  ㄴ 중앙값 : 300만원 (9명중 한가운데인 5번째 직원의 연봉)

 * 내가 '직원'으로서 'A'회사에 입사한다면 연봉은 500만원이 아닌 300만원을 받기될 것이기에 평균보다 최빈수, 중앙값이 더 정확할것이다. 

 * 그렇다면 평균보다 최빈수, 중앙값이 더 정확하고 좋은 방법이라 말할 수 있는가??



2. 평균이 중앙값보다 유용한 까닭은?

< 평균이 중앙값보다 유용한 까닭 > 

* 인과관계의 통찰이라는 관점에서, '뭔가의 요인을 바꾸면 결과값의 총량이 어떻게 변하는가'라는 측면에서 평균값 사용이 더 정확하다  

* '예제 1'에서 직원 6,7,8번째의 연봉이 100만원씩 올랐다고 해도 중앙값은 여전히 300만원이다. (평균값은 500만원에서 533.3만원으로 증가) 

* 여기서 당신이 재무직원으로 회사의 인건비를 계산해야 한다면 어떤 값을 사용하겠는가?

  -  평균값은 극단적으로 값이 편중되어 있더라도, 전체적으로 평균연봉이 얼마나 변했는가 하는 증감을 아는데 적합하다   

  -  반면 중앙값은 총량에 미치는 영향이 어떻게 되는지 계산하기 어렵다. 

* 무엇보다 평균값이 좋은 추정방법이 되는 이유는 다음과 같다 

< 평균값이 좋은 추정법인 이유 >   

 - 실무에서 획득하는 대부분의 데이터들은 불규칙성을 띄고 있다. 

  - 불규칙성이 있다고는 하나 대다수의 데이터는 '정규분포'를 띈다 (정규분포 Normal distribution) 

  - 데이터가 정규분포를 따르지 않더라도 '데이터를 거듭 추가 할 수록' 정규분포에 수렴한다 (중심극한정리, Central limit theorem

  ▶ 데이터의 불규칙성이 정규분포를 따르고 있으면, 최소제곱법이 가장 좋은 추정법이고, 그 결과 평균값이 가장 좋은 추정법이 된다 

* 최소제곱법(Method of least squares) 

 : 어떤 건물의 높이를 추정할때 2m 높게 혹은 2m낮게 추정한다고 해도 제곱하면 4의 차이가 발생 

 : 본래의 차이가 (+)이든 (-)이든 '차이의 제곱'은 0이상의 값이 되며, 이것을 모두 더했을 때 가장 작은값을 '참값'으로 추정


3. 정규분포 

 

< 정규분포와 중심극한정리 >

* 대다수의 데이터는 정규분포를 따르며, 데이터가 정규분포를 따르지 않는다고 해도 데이터 값을 거듭 추가 할 수록 정규분포에 수렴한다  

* 데이터 값을 몇개 추가한 것이 정규분포를 따르면, 거기에 다시 '추가한 데이터의 수'로 나눈 값인 평균값도 정규분포에 수렴한다


4. 표준편차

(1) 사분위점

 - 현상을 이해하기 위해서는 데이터를 '구간'으로 보아야 한다 

 - 평균 객단가가 3000원인 경우 대다수의 고객이 3000원을 쓴다는 것인지, 아니면 100원 쓰는 사람, 1만원 쓰는 사람이 공존해있는지 알 수 없음 

 - 데이터의 최대값, 최소값을 선정할때 덜 극단적인 위치에 있는 값을 사용하기 위해 보통 '사분위점' 25%, 75%를 사용 (or 10%/90%, 5%/95% 사용)

 - 사분위점 사용시 극단적인 값에 휘둘리지 않고 '이 범위 부근에 데이터가 존재한다'는 것을 나타낼 수 있음 


(2) 분산 

 - 데이터에 내포된 불규칙성을 알아보려면 '분산'을 확인 

 - 평균이란  '참값에서 벗어난 값의 제곱합'을 가리키는데 이를 사용하면 불규칙성이 큰지 작은지 알 수 있음 

  ㄴ (!) 벗어난 값 -> 편차 

- 위 그림은 A매장의 고객 3명을 대상으로 서비스 만족도를 10점 만점으로 평가한 결과. 각 참가자의 '평균값에서 벗어난 값의 제곱'을 모두 더하면 38이라는 값을 얻을 수 있음 

- 허나 이런 방식으로 판단시 데이터 수가 늘수록 합이 커지는 문제가 있음(!!!) 

  ㄴ 동일한 설문조사를 B매장에서 40명을 대상으로 했을때 20명은 6점, 20명은 8점을 준 경우, 평균값은 7로 동일하지만 평균에서 +-1점된 점수를 모두 합한값은 40이 됨 (20*1 + 20*1 = 40)

  ㄴ 즉 '벗어난 값의 제곱합'은 데이터가 늘면 늘수록 동일한 불규칙성을 내포하고 있는 데이터도 많아지기 때문

  ㄴ 이 경우 '벗어난 값의 제곱합'대신 '벗어난 값의 제곱 평균'을 사용하면 어느정도 정리된 불규칙성을 표현 가능 (38/3 =  12.7 <<-- 벗어난 값의 제곱 평균)  


(3) 표준편차 

 - 분산에 루트(√)를 씌워 얻어진 값을 '표준편차 (Standard Deviation, SD)' 이라 함

  ㄴ 분산은 제곱된 값이기 때문에 실질적인 치우침에 비해 그 값이 크다. 따라서 루트를 사용하여 값을 조정하며 이것을 표준편차라고 부름 

 - 위 그림의 분산(편차 제곱의 평균)은 12.7, 표준편차(분산값에 루트 적용)는 3.6


(4) 정리 

1. 평균 

 : 개별 데이터의 점수를 데이터의 수만큼 나누기 

 : 2+9+10 / 3 = 7 


2. 분산 

 : 편차 제곱의 평균  

 : (-5^2)+(+2^2)+(+3^2) / 3 = 12.7


3. 표준편차  

 : 분산값에 v 적용 

 : = 3.6



5. 평균과 표준편차를 알면???

* 평균, 표준편차를 조합하면 '대략 이 범위 부근에 데이터가 존재한다'는 현상 파악이 가능 

* 데이터가 불규칙성이 있더라도 평균값-2SD(표준편차의 2배) ~ 평균값+2SD까지의 범위에 반드시 전체의 3/4이상의 데이터가 존재함 

 - 심지어 정규분포를 따르지 않고 평균값 주면에 값이 존재하는 데이터 일지라도 (양극단에 데이터가 밀집) 평균값 2SD 범위안에 3/4이상의 데이터가 존재 

* 정규분포를 따르는 데이터라면 평균값2SD 범위에 95% 데이터가 존재 



1. 요약  

 * 인간이 눈으로 보는 것과 뇌가 인식하는 것에는 차이가 있음 

 * 이는 눈으로 본 정보를 뇌가 빠르게 이해하기 위해 shrotcut을 만드는 과정에서 발생함 

 * 이러한 에러는 이미지의 형태와 색상에 크게 영향을 받음 

  

 - 웹페이지나 앱등의 서비스에서 제공자가 의도한 대로, 소비자들이 인식하지 못한다면 이는 제공자와-소비자들의 경험, 지식, 익숙함 등에서 차이가 발생하기 때문으로 볼 수 도 있음 

 - 이는 컨텐츠를 본 소비자들이 엉뚱한 shortcut 형성하도록 제작자가 설계를 잘못했을 가능성이 있음 



2. 내용 

(1) 눈으로 보는 정보과 뇌의 인식간의 차이 사례

 - 우리의 눈은 계속해서 뇌로 정보를 제공하며, 이런 과정에서 우리는 "무엇이 저기에 있다"라는 실제적인 경험을 얻게 됨

 - 그러나 우리가 눈을 통해 보고 뇌로 이해한것이 정확하게 일치하지 않을 수 있음 

 - 즉, 눈이 보는것과 뇌가 인식하는 것간의 간극이 있을 수 있음 


< 그림 1 > 우리눈에는 보이나 실제론 존재하지 않는 삼각형 


- <그림 1>을 보면, 우리는 2가지 삼각형을 볼 수 있음 

  (1) 제일 먼저 보이는 것은 검은선으로 그려진 삼각형

  (2) 그리고 그 위에 있는 하얀색 삼각형  

 - 하지만 이 삼각형들은 실제로 존재하지 않으며, 일부 선과 부분적인 타원만이 존재할 뿐임 

 - 이것은 눈으로 본 정보를 가지고 뇌가 빈공간에 삼각형을 그려낸것임 

 - 이를 Kanizsa triangle이라고 부름 

 - <그림 2>는 존재하지 않는 사각형을 볼 수 있는 또 다른 사례임 


< 그림 2 > Kanizsa rectangle 사례


(2) 뇌는 지름길을 만든다 (The brain creates shortcuts)

 - 뇌는 우리의 주변에서 일어나는 일들을 빨리 이해하기 위해 지름길(shortcuts)을 만들어낸다

 - 우리의 뇌는 매 순간마다 수 많은 정보를 얻게 되고 이 정보들을 해석하는 과정을 반복한다 

 - 이때 뇌는 지난 경험을 바탕으로 rules of thumb을 사용해 우리가 본 정보를 추측하게 된다 

 - 이 과정에서 종종 에러가 발생하게 되고 그 대표적인 사례가 Kanizsa rectangle이라 볼 수 있음 

 - 이런 에러는 형태와 색상을 어떻게 조합하느냐에 따라 영향을 받을 수 있음 


< 그림 3 > 인간이 보는 것은 형태와 색상에 영향을 받음 


< 그림 4 > Optical illusions의 대표적인 사례 Franz Muller_Lyer



* 본 글은 블리자드 홈페이지의 직무소개에 나와있는 글을 요약 정리한 내용임 (http://kr.blizzard.com/ko-kr/company/careers/roles/production.html)

* 블리자드 사례이긴 하지만 공감하는 내용이 많기에 요약정리함 


1. 블리자드 프로듀서 주요 내용 

○ 프로듀서의 중요 업무 

 - 업무를 방해하는 장애물 제거함으로써 팀원들이 업무에 집중할 수 있는 환경 제공 

 - 프로듀서는 관리자가 아님. 작업 환경 구축 및 비전 제시가 중요 

 - 프로젝트 관리 툴 + 공감능력 + 커뮤니케이션 + 스케줄링 등의 역량이 필요 

 

○ 필요 역량 

 - 자신의 업무에 대한 명확한 이해 (무엇을 하고 싶은가?)

 - 타인에게 없는 자신만의 능력 

 - 서포터로서의 능력  

 - 명령이 아닌 의사소통 하는 능력 

 - 본인과 동료에 대한 컨트롤&스케줄링 능력 

 - 업무 처리 능력(우선순위 설정, 결과물 창출) 

 - 사람을 대하는 능력 

 - 말하기 및 프리젠테이션 능력 + 업계 이해도 + 사례 수집 + 소프트웨어 툴 사용 + 프로덕션 방법론 

 

2. 본인 성찰 

  ○ 언어 능력 향상이 필요 (영어 + 중국어) 

   - 특히 중국어의 경우 중국시장이 커짐에 따라 그 중요도가 더욱 커지고 있음 

 

  ○ 생각정리

   - 발표자료를 만들다 보면 항상 분량이 많음 

   - 생각을 덜어내고 핵심만 캐치하는 능력 향상이 필요 

 

 ○ 발표능력 

   - 하고자 하는 말을 100%조리있게 표현하지 못함 

   - 빨리 말하는 습관 때문인듯 

   - 조금 천천히 말하더라도 논리와 맥락에 맞게 말하기 

 

 ○ 스케줄링 및 커뮤니케이션 능력 

  - 많이 경험해보지 않았지만 현재 나의 강점이라 생각함 

  - 이 부분은 경험이 더 필요     

 


[ 출처 ] 

- http://kr.blizzard.com/ko-kr/company/careers/roles/production.html

'게임 > 조사' 카테고리의 다른 글

[ 용어 정리 ] 퍼블리싱 계약 용어  (0) 2016.05.05
[ 용어 정리 ] 게임 광고  (0) 2016.05.01
[ 용어 정리 ] 게임 지표 용어  (0) 2016.05.01

+ Recent posts