언제부터인가 심상치 않게 들려오는 빅데이터는 어떤 배경에서 생겨났을까. 빅데이터 시대에 접어들게 된 배경부터 빅데이터와 함께 발전한 IT 기술, 이에 따라 달라진 생활 환경과 정부의 정책, 기업의 노력에는 무엇이 있는지 살펴보겠다.
내용발췌 빅데이터 커리어 가이드북(조성준 외 지음, 길벗 펴냄)
바야흐로 빅데이터 시대이다. 그렇다면 데이터와 빅데이터의 차이는 무엇일까. 바로 ‘데이터 양’, ‘빠른 생성 속도’, ‘다양성’에 있다. 세상의 상황을 측정하는 수많은 센서 기술의 발전 덕분에 기업이 데이터를 수집하는 일이 편리해졌고 스마트폰의 등장과 함께 디지털 세상에 접어들었다. 스마트폰, SNS, 신용카드, 이메일, 온라인 쇼핑 등 우리는 일상의 대부분을 디지털 환경에서 보내고 있다.
이런 환경 속에서 일어나는 모든 일은 디지털 데이터로 만들어지고 기업은 이 데이터를 자동으로 수집한다. 그뿐 아니라 공장, 기업에서 수많은 기계가 만들어내는 센서 데이터, 기기 간의 통신 데이터 등도 자동으로 수집되고 있다. 과거에는 데이터를 사람이 일일이 기록하는 방식으로 수집했다면 이제는 디지털 환경이 스스로 기록하고 자동으로 수집한다. 다양한 분야에서 수많은 종류의 데이터가 엄청난 속도로 쌓이면서 마침내 ‘빅데이터’가 등장한 것이다. 1950년대, 약 4MB를 저장하던 ‘IBM RAMAC 305’의 크기는 무려 냉장고 두 대, 무게는 1톤, 한 달 대여 비용은 수천만 원에 달했다. 사정이 이렇다 보니 데이터를 저장하기 어려워 수많은 데이터를 그냥 흘려버릴 수 밖에 없었다. 이후 데이터 저장 매체의 크기와 비용이 점차 감소하면서 이제는 단돈 몇십 원이면 1GB의 저장 공간을 마련할 수 있게 됐다. 비로소 빠른 속도로 생성되는 많은 양의 데이터를 저장할 수 있는 시대가 온 것이다.
데이터가 크다고 바로 가치가 생기는 것은 아니다. 큰 데이터를 분석하고 처리하는 연산 기술이 없다면 빅데이터는 저장비용만 축낼 것이다.
예를 들어 온라인 쇼핑몰에서 데이터를 분석해 고객에게 실시간으로 제품을 추천할 때 컴퓨터의 연산 속도가 너무 느려 추천하는 데 하루가 걸리거나 연산 비용이 고객에게 제품을 추천한 효과보다 크다면 추천하는 의미도 없고 가치도 없게 된다. 다행스럽게도 저장비용이 그랬던 것처럼 연산 비용이 감소한 것은 물론 연산 속도도 크게 향상됐다. 2000년의 인텔 CPU는 1초에 30억 회 계산할 수 있었다면 2020년 인텔 CPU는 1초에 1만 2,000억 회 이상 계산할 정도로 빨라졌다. 20년 동안 무려 속도가 600배 이상 빨라진 것이다.
이는 20년 전 1년 8개월 넘게 걸렸던 계산이 1일이면 끝나는 것을 의미한다. 또한 같은 기간 동안 연산 비용은 3만 배 넘게 감소했다. 이렇게 저렴하고 빠른 연산 덕분에 이제 빅데이터를 가공하고 분석해 얻을 수 있는 가치가 비용을 앞질러 빅데이터가 경제성을 갖기 시작했다. 이와 더불어 클라우드 컴퓨팅 기술이 발전하면서 연산에 필요한 CPU나 GPU를 직접 갖추고 있지 않고도 고성능 연산 장치를 누구나 쉽게 이용할 수 있게 되었다. 비로소 빅데이터를 분석하는 기반이 마련된 것이다.
데이터가 쌓이고 분석 환경이 마련됐다고 해서 빅데이터 시대가 저절로 열리는 것은 아니다. 데이터의 ‘개방’과 ‘융합’이라는 조건이 충족돼야 한다. 데이터는 부분적인 정보를 담고 있어서 분석으로 가치를 높이기 위해서는 다른 데이터와 융합해 포괄적인 정보를 담은 빅데이터를 만든 후 이를 분석 대상으로 삼아야 한다. 데이터 융합이 원활하게 이뤄지기 위해서는 표준화된 데이터를 개방하고 데이터 접근성을 높이기 위한 노력이 필요하다. 각국의 정부와 기업은 데이터의 개방으로 빅데이터의 가치를 키우기 위해 노력하고 있다. 우리나라는 2020년 1월 9일, 국회 본회의에서 ‘데이터 3법’이라 불리는 개인정보보호법, 정보통신망법, 신용정보법이 통과됐다. 이 법안은 개인정보와 관련된 빅데이터를 기업에서 좀 더 쉽게 활용하도록 규제를 완화한 것이다. 개인정보 처리자의 책임을 강화하되 개인을 식별할 수 없도록 정보를 가명 처리할 때 본인의 동의 없이도 데이터를 연구 목적 등으로 활용할 수 있게 하는 법안이다. 정부는 데이터 개방과 유통 확대를 바탕으로 데이터 융합과 활용을 촉진함으로써 4차 산업혁명 시대의 핵심 자원인 데이터를 통해 신산업 육성을 장려하고 있다.
빅데이터가 가져온 세상의 변화에 가장 발 빠르게 대응하는 곳이 ‘기업’이다. ‘빅데이터 실행’이라는 새로운 사업 모델을 적극적으로 사용하거나 기존 사업에 접목하는 시도가 이뤄지고 있다. 빅데이터실행은 ‘데이터(Data)에서 인사이트(Insight)를 도출함으로써 가치(Value)를 창출해내는 과정’을 일컫는 말이다. 예를 들어 아마존은 구매 정보에서 고객이 어떤 제품을 구매하는지 이해해 고객 추천 서비스를 만들었고, 그 결과 매출이 40%나 증가했다. 여기서 고객 구매 정보는 ‘데이터’, 어떤 제품을 구매하는지를 이해하는 것이 ‘인사이트’, 인사이트의 결과로 증가한 매출 40%가 ‘가치’인 것이다. 따라서 빅데이터 실행을 가능하게 하려면 사업적 가치에 대한 비전을 세운 후 비전을 실현하는 인사이트를 상정하고 그 인사이트를 도출할수 있는 데이터를 찾는 과정이 필요하다. 이 일련의 과정을 ‘빅데이터 기획’이라고 한다. 최근 빅데이터 기획을 위해 의사결정자와 빅데이터 전문가가 함께 전략을 세우는 기업이 늘고 있다. 기업은 빅데이터 기획과 빅데이터 실행을 효율적으로 실행하기 위해 데이터를 변환‧가공하는 ‘디지털 트랜스포메이션’ 작업을 진행하는 동시에 데이터를 바탕으로 의사결정을 하는 데 필요한 이력을 채용하고 조직을 재정비하고 있다. 디지털 트랜스포메이션은 기업이 기존에 보유하고 있거나 보유할 수 있는 데이터를 디지털화해 사용할 수 있는 형태로 가공해 기존에는 알 수 없었던 새로운 인사이트를 얻는 기회를 만드는 것을 의미한다. 기업은 이런 기회를 얻기 위해 기업 내에 흩어져 있던 데이터 관련 인력을 모아 데이터 분석팀을 구성할 필요가 있다. 그리고 각 부서에 필요한 분석 업무를 처리해 주거나 해당 부서에 데이터 분석 인력을 배치해 사내 교육을 진행하는 등 데이터 분석을 활성화함으로써 데이터분석 업무의 활용도와 영향력을 높이도록 빅데이터 전문 인력를 확보해 조직 체계를 재정비하는 노력을 해야 한다.
▲ 빅데이터 실행
국내 기업의 대표적인 예로는 ‘수아랩’을 들 수 있다. ‘수아랩’은 2013년 창업한 인공지능(AI) 스타트업으로 딥러닝 기술을 기반으로 하는 자동화 검사 솔루션 ‘수아킷(SuaKIT)’을 제공한다. 수아킷은 디스플레이, 태양광, 인쇄회로기판, 필름, 반도체 등에 필요한 각종 검사를 자동화할 수 있다. 기업은 수아킷의 분할(Segmentation), 분류(Classification), 탐지(Detection) 등을 통해 제조 공정상 발생할 수 있는 불량 검사 과정을 손쉽게 무인화할 수 있다. 수아랩은 모두 전문교육을 받은 인력만 가능했던 일을 데이터를 통해 해결함으로써 시장에서 기술력과 필요성을 인정받으며 2019년 미국 나스닥 상장 기업인 ‘코그넥스(Cognex)’에 1억 9,500억 달러에 인수됐다. 데이터를 활용한다는 점에서 수아랩과 비슷하지만 새로운 방향에서 기회를 찾는 기업도 등장했다. ‘Scale AI’는 인공지능을 개발하기 위한 학습 데이터를 ‘크라우드 소싱’ 방식으로 제공해주는 역할을 하고 있다. 크라우드 소싱은 아웃소싱과 비슷한 개념이지만 특정한 제3자 또는 기업의 업무 중 일부를 위탁 처리하는 것이 아니라 불특정다수를 대상으로 한다는 데 차이점이 있다. 이와 비슷한 사업을 하는 국내 스타트업으로는 ‘크라우드웍스(Crowdworks)’, 셀렉트스타 Information(Selectstar)’, ‘슈퍼브에이아이(SperbAI)’ 등이 있다. 이외에도 데이터를 통해 시스템 전반을 혁신하고자 하는 기업, 시각화, 머신러닝과 같은 데이터 분석 기능을 서비스로 제공하는 기업도 나타나고 있다.
앞으로 기업에서는 데이터에서 기회를 포착하고 데이터를 바탕으로 한 의사결정이 더욱 자연스러워질 것이다. 클라우드 플랫폼 인프라와 분석 기술은 오픈소스의 형태로 점점 저렴하게 배포돼 무료에 가까워지고 있지만, 데이터는 그렇지 않다. 데이터를 수집하려면 장비와 시간이 필요하기 때문이다. 고객 데이터를 확보하기 위해서는 고객에게 서비스를 제공하고 데이터를 수집할 시간이 필요하다. 미래 기업의 경쟁력은 각 기업이 얼마나 많은 양질의 데이터를 보유하고 있느냐에 달려 있다. 특히 데이터 전송 속도의 획기적인 증가로 스마트폰 뿐만 아니라 다양한 장치의 센서를 이용해 데이터를 전송하거나 전송받는 양 또한 기하급수적으로 늘어날 것이다. 이런 데이터를 저장, 처리하고 분석하는 기술 역시 활성화되고 이 과정에서 인공지능, 클라우드 컴퓨팅 등의 기술이 확산돼 전 산업에 영향을 미칠 것이다.