세상은 숫자로 가득 차 있다
이 세상은 데이터로 구성되어 있음을 알 수 있다. 이 데이터 들이 의미있는 숫자가 되었을 때 비로소 데이터는 정보(information)가 되어 우리의 가슴속으로 다가오게 된다.
데이터가 정보가 되기 위해서는 먼저 테이터의 속성에 대한 이해가 필요하고, 데이터를 분석하는 방법을 배울 필요가 있다. 또한 데이터를 분석한다는 것은 미래에 대한 예측이라는 요소와 맞닿아 있다. 선거에서 어떤 후보가 선출되는지, 어떤 주식의 주가가 오르는지 내리는지에 대한 부분은 모두 미지의 영역에 숨어 있다. 이 영역에 발을 들여놓기는 쉽지 않다. 데이터 분석은 궁극적으로 ‘미래 예측’이라는 인간의 오랜 욕망과 연결된다.
고대에서도 미래를 예측하는 것은 신의 영역이였기에 특정된 제사장이나 예언가들에만 이곳에 접근할 수 있었다. 데이타를 오용하는 것은 세상에 재앙을 가져다 줄 수 있다는 사실을 고대인들로 이미 알고 있었던 것이다. 그러나 오늘날 우리는 데이터라는 눈에 보이지 않는 자산을 통해, 신이 아닌 인간의 힘으로도 일정 부분 미래를 예측할 수 있는 가능성을 얻게 되었다.
선거에서 어떤 후보가 당선될지, 특정 기업의 주가가 오를지 내릴지, 소비자들이 어떤 상품을 선호할지 등은 모두 미지의 영역에 속하지만, 정교한 데이터 분석을 통해 어느 정도 그 윤곽을 그려볼 수 있다. 물론, 이 영역은 단순하지 않다. 예측은 언제나 불확실성과 함께한다. 그렇기에 데이터를 올바로 해석하고, 그 결과를 적절히 받아들이는 지혜가 필요하다.
여론조사, 데이터 분석의 대표 사례
데이터 분석의 대표적인 예가 바로 여론조사다. 정치적 이슈, 사회적 관심사, 선거 판세 등을 파악하기 위한 여론조사는 현대사회에서 매우 익숙한 정보 전달 방식이다. 그런데 여론조사는 언제부터 시작됐을까?
근대적 의미의 여론조사는 1824년 미국 대통령 선거에서 비롯되었다. 당시 펜실베이니아주 해리스버그 주민들이 대선 후보를 두고 모의투표를 실시한 것이 그 시작이었다. 이 조사에서 앤드루 잭슨이 우세했지만, 실제로는 퀸시 애덤스가 당선되었다. 결과는 빗나갔지만, 이 시도는 여론을 수치화하려는 첫 걸음이었으며, 이후 여론조사 기법은 빠르게 발전하게 된다.
오늘날 우리는 여러 여론조사 결과를 접한다. 선거철에는 특히나 빈번하게 발표되며, 경제·사회·문화 등 다양한 영역으로 확장되고 있다. 하지만 대다수 사람들은 이 수치들을 액면 그대로 받아들이는 경향이 있다. 과연 이 수치는 얼마나 믿을 수 있는 것일까?
신뢰수준과 표본오차, 숫자 뒤에 숨은 의미
여론조사 결과를 해석할 때 빠지지 않고 등장하는 두 가지 개념이 있다. 바로 신뢰수준과 표본오차다. 흔히 보게 되는 문구는 다음과 같다.
"표본오차는 95% 신뢰수준에서 ±4.4%"
이 문구의 의미를 정확히 이해하는 것은 매우 중요하다. 먼저, ‘신뢰수준 95%’는 이 조사를 100번 반복했을 때, 95번은 동일한 결과가 오차 범위 내에서 나올 것이라는 뜻이다. 흔히 오해하는 것처럼 ‘95% 확률로 이 결과가 맞다’는 의미는 아니다.
‘표본오차 ±4.4%’는 조사된 수치가 실제 전체의 의견에서 최대 4.4%까지 차이가 있을 수 있음을 뜻한다. 이 오차범위는 조사에 참여한 사람의 수, 즉 표본의 크기에 따라 달라지며, 표본이 클수록 오차는 줄어든다.
예를 들어, A 후보의 지지율이 40%, B 후보가 36%이고, 표본오차가 ±3%라면 A 후보의 실제 지지율은 37 ~ 43%, B 후보는 33 ~ 39% 사이일 수 있다. 이 경우 두 후보의 지지율 범위가 겹치므로, A 후보가 반드시 우세하다고 단정할 수 없다. 여론조사는 어디까지나 ‘추정’일 뿐이며, 결과를 맞추는 도구는 아님을 이해해야 한다.
주식시장에도 적용될 수 있을까?
여론조사처럼 불확실성을 가진 데이터 분석은 주식시장에서도 중요한 역할을 한다. 주식은 그 자체로 미래에 대한 예측이다. 투자자는 수많은 데이터를 기반으로 어떤 종목이 오를지, 어떤 시점에 매수할 지, 매도 할지를 결정한다. 그렇다면 신뢰수준과 표본오차 같은 통계 개념이 주식시장에도 적용될 수 있을까?
주식 시장에서의 통계 적용 방식을 한 번 살펴보자. 주식 분석에서 신뢰수준과 표본오차는 다음과 같은 형태로 활용된다.
- 백테스트(Backtest):
투자 전략을 과거 데이터에 적용해 수익률을 검증하는 과정이다. 이때 여러 번의 시뮬레이션을 돌려 신뢰수준 95%에서 평균 수익률 ± 오차범위를 계산할 수 있다.
- 몬테카를로 시뮬레이션:
확률 분포를 이용해 미래의 주가나 포트폴리오 성과를 예측하는 방식이다. 수천 번의 모의 실험 결과를 통해 '95% 확률로 이 범위 안에 있을 것'이라는 예측 구간을 제시할 수 있다.
- 리스크 분석(Value at Risk, VaR):
주어진 신뢰수준(예: 99%)에서 특정 기간 동안 발생할 수 있는 최대 손실을 추정하는 방식이다. 금융기관들이 리스크 관리에 자주 사용하는 방법이다.
이처럼 주식시장에서도 통계적 개념은 예측과 의사결정을 위한 강력한 도구로 사용된다. 하지만 여론조사처럼, 이 수치들 역시 ‘확률적 추정’일 뿐이며, 절대적인 확실성을 담보하지 않는다.
테이터에 속지 않고 숫자를 읽는 힘
데이터는 우리를 속이지 않는다. 다만 우리가 데이터를 잘못 해석할 뿐이다. 신뢰수준과 표본오차는 데이터 분석에서 가장 기본적 이면서도 중요한 개념이다. 이 개념을 이해하고 나면, 우리는 수많은 수치들에 현혹되기보다는 보다 냉철하고 정확하게 세상을 바라볼 수 있다.
특히 여론조사와 주식시장처럼 예측이 중요하고, 불확실성이 큰 영역에서는 신뢰수준과 표본오차의 개념을 올바르게 이해하는 것이 더욱 중요하다. 이 개념이 신의 영역에서 발을 들여놓기 위한 시작이 될 것이다.