우선 그 “빅”이라는 단어에 많은 오해의 소지가 있다. 처음 빅 데이터란 말이 쓰이기 시작했을 때에는 많은 이들이 그것을 3V, 즉 Volume(크기), Velocity(속도), Variety(다양성)로 정의하곤 했다. 그러나 이런 기술적 정의도 다양하고 방대한 양의 데이터가 빨리 돌아다니기만 하면 저절로 가치가 창출된다는 오해를 낳아서 바람직하지 않다. 그 광고적 표현을 만들어낸 소프트웨어 회사들의 의도도 “이제는 아주 방대한 데이터도 처리할 수 있다”이지 “데이터는 커야만 한다”가 아니었다.
데이터의 크기만 강조하는 것은 마치 따뜻한 밥 한 공기를 원하는 배고픈 사람 앞에서 대한민국 1년 쌀 수확량이 얼마냐는 통계나 나열하는 형국이다. 실상 데이터는 작아질수록 사용자에게 가치가 있는 법이다. 예를 들어 일기예보는 엄청난 양의 데이터를 분석한 결과물이다. 그러나 사용자들이 원하는 것은 “내일 오후에 비가 올 확률은 70%입니다”같이 작으면서도 쓸모 있는 정보다. 결코 수집된 데이터 전체를 원하는 것도 아니고 미래를 예측하는 모델링 과정을 알고 싶어하는 것도 아니다.
광산에서 금을 캤다고 금시계가 저절로 생기는 게 아니듯이 데이터도 가공이 돼야 가치를 지니게 된다. 많은 조직은 데이터를 수집하고 그 정보를 그대로 사용자에게 전달하는 데에 대부분의 시간과 노력을 들이고 있는데, 정작 그것은 긴 데이터 여정의 시작과 끝일 뿐이다. 그 중간 과정으로 데이터를 수정, 재구성하고 예측적 분석으로 빈 곳을 메워주는 보완작업까지 마쳐야 비로소 쓸모있는 정보가 만들어진다.
아무도 쓰지 않는 데이터는 분명 쓸모없는 것이니 사용자의 관점에서 유용한 정보를 정의해 보겠다. 첫째, 그것은 전문지식 없이도 쉽게 이해할 수 있는 것이다. 둘째, 산더미 같은 데이터가 아니라 즉시 사용 가능한 질문에 대한 작은 답들이다. 셋째, 일관되게 정확하여 늘 효과적으로 쓸 수 있는 도구다. 넷째, 한정된 경우에만 적용되는 것이 아니라 대부분의 경우에 도움이 되는 것이다. 다섯째, 사용자가 선호하는 채널과 기기를 통해 언제 어디서나 접근 가능한 것이어야 한다. 그리고 이런 조건들은 그 “빅”이란 단어와는 별 상관이 없다.
데이터로 경제적 가치를 창출하는 일을 30년 넘게 도와온 사람으로서 요즘 자주 하는 질문은 “빅 데이터로 재미 좀 보셨습니까?”다. 엄청난 양의 데이터를 수집, 가공하여 사용자에게 도움을 주는 과정은 많은 노력과 투자를 필요로 한다.따라서 모든 사업이 그렇듯이 분명한 목적을 가지고 시작해야 한다. 명확하지 않은 질문에는 답도 없는 법이기 때문이다.
유혁 윌로우 데이타 스트리티지 대표