정보 홍수시대에 가치창출의 엔진을 달다

   미국의 시장조사 업체인 IDC는 2011년 전 세계 디지털 정보량이 약 1.8제타바이트이며, 2020년에 관리해야 할 정보의 양은 현재보다 약 50배 이상 증가하고 10배 많은 서버가 필요할 것으로 전망했다. 1.8제타바이트는 1.8조 기가바이트로서 2000억 개 이상의 고화질(HD) 영화를 4700만 년 동안 시청할 수 있는 정도의 정보량이다. 걷잡을 수 없는 ‘데이터 홍수’의 시대다.
   2008년 미국 인디애나 주립대학의 조핸 볼런(Johan Bollen)교수는 트위터에 올라온 글을 읽다가 이 모든 데이터를 모아 분석하면 어떠한 거대한 흐름이 나올 거라고 생각했다. 볼렌 교수는 같은 해 상반기 트위터에 올라온 모든 데이터를 분석해 이용자들의 집단적 기분 변화가 전국 행사와 일치한다는 것을 알아냈다. 행복지수가 높아지면 추수감사절이 다가온다든지, 불안지수가 높아지면 어김없이 다우지수가 하락한다든지 하는 내용이다. 이 연구를 통해 빅데이터(Big Data)라는 단어는 정의되고, 바야흐로 ‘빅데이터 시대’가 도래한다.
   그런데 왜 빅데이터인가? 의미 그대로 해석하면 매우 큰 데이터란 뜻의 빅데이터는 예전의 데이터와 그 성격이 다르다. 현재의 빅데이터는 정형 데이터(데이터베이스, 사무정보)나 반정형 데이터뿐만 아니라 비정형 데이터(이메일, 멀티미디어, SNS, 각종 로그 기록), 사물정보, 인지정보(RFID, 센서, 사물통신) 등 ‘세상의 모든 데이터’를 다 포함한다. 특히 전체 데이터 중에서 비정형 데이터의 비중이 70퍼센트 이상을 차지한다. 게다가, 데이터의 양이 다르다. 동일한 프로젝트에서 IBM의 실패와 구글의 성공은 왜 빅데이터인가를 잘 나타낸다. IBM은 캐나다 의회의 ‘수백만 건’의 DB화한 문서를 활용하여 영어-불어 자동번역 시스템 개발을 시도했으나 실패하였다. 반면 구글은 동일 방식이지만 ‘수억 건’의 자료를 활용하여 50개 언어 간의 자동번역 시스템 개발에 성공하였다. 컨설팅업체 맥킨지(McKinsey)에 의하면 두 회사의 성공과 실패는 단지 데이터의 크기에서 도래한 것이다. 또한, 데이터 처리 기술이 다르다. 대용량의 데이터를 생성하거나 수집 및 통합하고 분석하고 활용하는 모든 단계에 있어서는 속도가 중요한데, 궁극적으로 빅데이터에서는 분석 결과를 실시간으로 활용하는 것을 추구하는 기술적 진보를 이루었다. 이를 종합해서 글로벌 컨설팅 기관인 가트너(Gartner)는 빅데이터의 특징을 다양성(Variety), 규모(Volume), 속도(Velocity)의 세 가지로 규정했는데, 그 이후 복잡성(Complexity)과 사람들의 관심 및 감정의 변화 양상이 담긴 데이터로서의 가치(Value)가 추가되었다.
   현재까지 대표적으로 쓰이는 빅데이터의 분석 기법들은 텍스트 마이닝(text mining)이라는 것으로 이 기술을 통해 방대한 텍스트 뭉치에서 의미 있는 정보를 추출해내고, 다른 정보와의 연계성을 파악하며, 텍스트가 가진 카테고리를 찾아내거나 단순한 정보 검색 그 이상의 결과를 얻어낼 수 있다.
   또, 오피니언 마이닝(opinion mining)이라 하여 웹사이트와 소셜미디어 등에 나타난 여론과 의견을 분석하여 유용한 정보로 재가공하는 기술이 있다. 이를 활용하면 네티즌들이 각각의 사건에 대하여 이야기하는 댓글이나 포스팅 등을 긍정 또는 부정으로 분류하여 더욱더 객관적이고 정확하게 평판을 파악할 수 있다. 그러나 가장 신뢰도가 높은 분석 기술로 알려져 있는 것은 군집 분석(cluster analysis)으로 각 개체의 유사성을 측정하여 높은 대상 집단을 분류하고, 군집에 속한 개체들의 유사성과 서로 다른 군집에 속한 개체간의 상이성을 규명하는 통계 분석 방법이다. 비슷한 특성을 가진 개체를 합쳐 가면서 최종적으로 유사 특성의 그룹을 발굴하는데 사용된다. 이 기술은 인터넷 공간에 무작위로 올라오는 글들을 비슷한 것과 아닌 것으로 분류하여 커다란 군집 형태로 모아 군중의 전체적인 의사 방향이 무엇인지 알아내기 위한 것이다.  
   물론 기존에도 정보의 중요성은 강조되어 왔다. 그러나 유비쿼터스 기술, 스마트폰과 SNS 등의 급속한 보급으로 과거와는 비교할 수 없을 만큼 많은 데이터들이 현재 생산·축적·유통되고 있다. 따라서 세계의 수많은 컨설팅 기업과 IT기업 그리고 정부와 연구기관들이 빅데이터를 미래 사회의 현안을 해결할 신 가치창출 엔진으로 보는 것도 무리가 아니다. 특히 빅데이터는 조직 내부의 정형화한 데이터뿐만 아니라 사회적·국가적·지구적인 모든 유형의 방대한 데이터로부터 과거에는 불가능했던 다양한 정보, 예를 들어 국제 정세, 경제 상황, 주식 시황, 사회불안, 정치와 선거 등 모든 것들에 대한 정보를 추출해 낼 수 있고 이를 바탕으로 효율적이고 효과적인 의사결정을 할 수 있게 한다.
   예를 들어, 미국의 세톤 헬스케어 패밀리 병원은 200만 명의 환자정보와 진료기록 중 입원 관련 데이터를 추출하여 증세와 질환, 입원과의 연관패턴을 발견하고 재입원 가능성이 높은 환자를 예측하여 이에 대한 예방조치 및 병상운영에 활용한다. 영국의 에너지기업 센트리카는 스마트계량기를 설치하여 날씨, 기온, 습도와 고객의 전력사용량과의 패턴을 분석함으로써 고객별 에너지 소비 패턴을 파악하고, 이를 그룹화하여 미래 전력소비 예측에 이용하고 있다. 아마존과 넷플릭스는 개인의 정보에 유사한 성향을 가진 사람들의 정보를 통합하여 분석하는 사용자 기반 협업 필터링 기술로 소비자에 대한 추천 정확도를 향상시켰으며, SNS 서비스를 제공하는 태그드닷컴은 1억 명에 대한 사람 간의 관계를 예측하여 연결 가능성이 높은 사람을 선별, 데이트 성공 가능성을 향상시킬 수 있는 개인 맞춤형 서비스를 제공한다. 서울의 심야버스 노선도 또한 빅데이터 기술을 활용하였는데, 교통카드 데이터의 기·종착지 분석과 약 30억 건에 달하는 심야 시간대 통화량 데이터를 분석하여 새로운 노선을 확정하였다. 
   정보사회의 모든 기술과 현상들이 그렇듯이 빅데이터는 낙관적 기대 못지않게 부정적인 위험을 내포하고 있다. 다만, 낙관적 기대가 아직 충분히 실현되지 않았듯이 부정적 위험도 아직 본격적으로 드러나지 않았을 따름이다. 기존의 정보사회에서 수집되는 개인정보는 주민번호, 학력, 재산 등과 같은 고정형 정보나 신용카드 내역, 접속 사이트, CCTV 행동 정보 등의 반고정형 정보가 대부분이었다. 그러나 개인의 삶의 모든 것이 기록에 남는 라이프 로그(lifelog)의 시대에 자동으로 생성·수집되는 정보는 개인이 블로그, SNS에 등재하는 글뿐만 아니라, 휴대전화에 내장된 GPS, 카메라, NFC 등의 센서들에 의한 개인이 어디를 방문하고 쇼핑하는지와 같은 모든 라이프 로그 정보를 포함한다. 따라서 개인의 취향, 사고, 행동 패턴뿐만 아니라 감정과 분위기, 더 나아가서 본인도 인지하지 못하는 습관이나 버릇까지 수집되고 분석될 수 있다. 영화 <트루먼 쇼>(1998)에서 묘사한 한 개인에 대한 ‘일생 감시’의 문제가 완전히 허구는 아니게 되는 것이다. 아니, 이미 상당 정도는 사실이지 않은가.


최영 대학원생 기자 
now_and_here@hanmail.net

저작권자 © 충대신문 무단전재 및 재배포 금지