설정기간·비교 대상·표본 선정 제대로 살펴라
현대 기업들은 수많은 통계자료를 사용합니다. 통계자료가 주요 의사결정에 그대로 활용됩니다. 고객관리, 인사자료, 재무 관련 자료 등 거의 모든 것들에는 통계가 녹아있습니다. 그렇기 때문에 우리시대의 핵심적인 이슈를 이해하기 위해서는 데이터의 언어인 통계를 제대로 이해해야 합니다. 하지만 통계는 숫자로 포장돼 있어서 우리를 현혹시키기도 쉽습니다. 통계에 속아 잘못된 결정을 내리는 경우도 수없이 많습니다.
통계와 관련해 다음과 같이 유명한 말이 있습니다. “세상에는 세 가지 종류의 거짓말이 있다. 거짓말과 새빨간 거짓말, 그리고 통계다.” 19세기 영국 총리를 지낸 벤자민 디즈레일리의 말입니다.
따라서 통계 결과에 현혹되지 않고 정확한 판단을 하기 위해서는 통계적 수치가 만들어지는 과정과 그 결과물을 제대로 해석할 수 있어야 합니다. 그래서 미국의 대표적인 신기술 및 미래 예측 관련 잡지인 <와이어드>는 이렇게 제안합니다. “문자 해독이 공공의 생활을 제대로 영위하는 데 중요한 것처럼 통계에 대한 정확한 이해는 데이터 이해에 절대적으로 중요한 문법이며, 따라서 사람들이 통계의 언어를 이해하도록 체계적인 교육을 시켜야한다”고 주장합니다.
실제로 정부의 정책적 의사결정, 국민의 투표를 통한 정치 참여, 기업의 각종 전략적 결정의 모든 부분이 데이터의 의미를 정확하게 파악하는 데 달려있습니다. 심지어 통계를 이해하지 못한다면 정치권이나 회사에서 진행되는 일이 통계라는 옷의 거짓말을 입어도 이를 간파해 낼 수 없습니다.
가장 좋은 방법은 통계에 대해 공부를 하는 것이겠지만 통계의 함정에 빠지지 않는 기본적인 방안 세 가지를 제시해 보겠습니다.
첫째, 설명하려는 내용과 통계 설정 기간이 제대로 되어 있는지를 살펴볼 필요가 있습니다.
2010년 초 미국의 수도 워싱턴DC에는 폭설이 내렸습니다. 이때 지구 온난화를 주장했던 의회의원들과 학자, 환경운동단체들은 전문가들의 엄청난 공격을 받았습니다. 비슷한 시기 폭설과 혹한을 경험했던 우리나라에서도 비슷한 공격이 있었습니다. 당시 미국 오클라호마 주의 짐 인호프 상원의원 가족은 워싱턴에 이글루를 만들었습니다. 그 이글루에 붙인 이름은 ‘앨 고어의 집’. 앨 고어는 지구온난화의 위험성을 세계적으로 경고한 미국의 부통령 출신 인물로 온난화에 대한 경고로 노벨 평화상까지 받았습니다.
그러나 지구 온난화의 문제는 단순히 일회성 이벤트나 몇 년간의 통계를 갖고 주장하거나 반박할 수 없습니다. 오히려 수십 년, 수백 년간의 데이터를 활용해 일종의 추세선을 만들 수 있어야만 근거를 대고 주장할 수 있는 이론입니다.
둘째, 비교를 정확하게 했는가를 확인해야 합니다.
이다 야스유키라는 일본의 통계 전문가가 쓴 글은 비행기가 자동차에 비해서 안전하다는 주장을 다음과 같이 반박합니다. “비행기 사고의 희생자가 압도적으로 크게 느껴지지만 사실 연간 사망자 수는 자동차가 압도적으로 많다. 그래서 비행기가 더 안전한 교통수단이라는 이야기가 맹신처럼 떠돌고 있다. 여기서 연간 사망자 수 통계로 어느 교통수단이 안전한가를 따지는데, 이는 비교 대상이 잘못된 것이다. 오히려 사람들의 교통수단별 이용횟수를 기준으로 사망자 수를 통계로 잡으면 비행기는 1억 회를 이용할 때 10명, 자동차는 6.3명이 사망한다. 오히려 자동차가 안전하다.” 따라서 사과와 사과를 비교하는 것인지 사과와 귤을 비교하는 것인지를 명확하게 구별해야 합니다.
셋째, 통계 분석의 대상이 되는 표본이 제대로 선정됐는지 파악하는 것도 중요합니다.
사실상 통계 왜곡의 상당부분은 모집단의 특성을 제대로 반영하지 않은 표본추출에서 발생합니다. 표본추출 과정에서는 두 가지 오류가 발생하기 쉽습니다. 첫째는 표본 구성 자체에 오류가 있는 경우입니다. 예를 들어 전체 사원들의 의견이라고 하면서 전체 사원의 특정 직군이 과도한 비율로 반영된 경우입니다. 이런 오류는 정치적 조사에서 종종 드러납니다. 자신들의 정당원을 대상으로 한 조사를 마치 국민 전체 의견인양 포장하는 것이 대표적인 사례입니다.
표본추출 과정에서 오류가 발생할 수도 있습니다. 미국의 경제 통계 사례를 들어보겠습니다. 경기가 좋은지 나쁜지를 파악할 경우 당연히 통계를 활용합니다. 이때 사용하는 통계는 전체를 대상으로 하지 않습니다. 표본을 찾아내 전체의 모습을 그릴 수 있도록 조립합니다. 예를 들어 소매업의 업황을 살펴보기 위해 특정 소매점을 선택합니다. 그리고 그 소매점이 전년도보다 매출이 올랐는지 비교합니다. 경기가 좋아졌다는 응답을 한 표본 소매점이 많아지면 경기가 회복되고 있다고 전문가들이 설명합니다. 그런데 경제학자들이 조사할 때 폐점한 소매점은 조사 대상에서 제외를 한다는 것입니다. 뉴욕 대학의 경제학자인 카이저 펑은 이런 문제 때문에 경기가 실제보다 좋은 것처럼 잘못 해석될 가능성이 다분히 있다고 주장합니다. 이런 통계자료를 바탕으로 의사결정할 경우 정부나 의회가 경기부양에 소극적이 될 가능성이 큽니다.
상관관계와 인과관계를 헷갈리는 것도 판단에 오류를 가져올 수 있습니다. 예를 들어 ‘키가 큰 아이들이 영어도 잘하더라’라는 통계결과는 상관관계가 될 수는 있어도 인과관계가 되기는 어렵습니다. 인과관계는 ‘키가 크기 때문에 영어를 잘한다’는 결론을 내릴 수 있어야 합니다. 키가 큰 아이들의 경우 부모들의 경제력이 좋기 때문에 충분한 영양을 공급받을 수 있고, 또 부모들의 경제력이 좋기 때문에 영어교육도 어렸을 때부터 받을 수 있습니다. 그런데 실제 우리가 의사결정을 할 때 주어진 데이터를 해석하면서는 상관관계인지 인과관계인지를 제대로 구분하기 어려운 경우가 많습니다. 따라서 이런 차이를 명확하게 구분하는 연습을 할 필요가 있습니다.
글로벌화가 진행되면서 사람들은 커뮤니케이션을 위해서 영어를 거의 필수적으로 배웁니다. 마찬가지로 사회의 데이터화가 진행되면 데이터의 언어인 통계를 정확하게 이해하고 통계에 현혹되지 않은 방법을 배워야 한다는 주장이 설득력을 얻고 있습니다.
http://blog.chosun.com/blog.log.view.screen?blogId=924&logId=5063889 <- 원문 보기.
'넋두리' 카테고리의 다른 글
절룩거리네 - 달빛요정역전만루홈런 (故 이진원) (0) | 2010.12.02 |
---|---|
76년생 첫 '애플 컴퓨터' 경매 등장 (0) | 2010.11.16 |
건강식품인 줄 알지만 사실 그렇지 않은 12가지 식품 (0) | 2010.10.30 |
완벽한 당신이 게으른 이유 (0) | 2010.09.28 |
지상파 vs. 케이블업체 정면 충돌 (0) | 2010.09.27 |