2014년 3월 12일 수요일

빅데이터가 뭐야?(What is BigData?)

빅데이터가 초미의 관심사다.
도대체 빅데이터가 뭐길래 이렇게 관심이 많을까?

컴퓨터의 처리능력 향상에 따라서 다양한 정보들이 생산된다. 대량 인쇄술의 발명이후에 인류의 지식은 급속도로 퍼져나가게 되었으며, 발생하는 정보의 양은 기하급수적으로 늘어나게 되었다. 특히, 컴퓨터 기술은 개인들이 정보를 자유롭게 생성할 수 있는 도구를 제공하였으며, 네트워크 기술은 이들 정보가 전 세계로 재빨리 퍼져나갈 수 있는 길을 제공하였다. 다수의 정보생산자들이 만들어내는 수많은 정보나 오랜 기간 누적되어온 정보들은 점차 그 방대한 양으로 인해서 유용성을 가려내기가 힘들어지고 있다.
IDC2011년도 “Digital Universe Study” 보고서2012년도 “IDC Predictions 2012” 보고서에서 디지털 정보의 생산량에 대하여 2011년도에는 1.8 ZB(zettabyte = billion terabyte)가 생산되었으며, 2012년도에는 2.7ZB, 2015년도에는 8ZB가 생산될 것으로 예측하고 있다. 아울러 기업에서 관리해야하는 정보량은 10년 뒤인 2020년에는 50배로 증가할 것으로 예측하고 있다.
 
이러한 정보량은 우리가 어림잡기가 어려운 수치이다. 이해를 돕기 위해서 블로터닷넷에서 2011년 생산된 1.8ZB의 정보량에 대한 비교 수치를 토대로 2012년도 예상 정보량인 2.7ZB의 비교수치를 아래에 적어본다.

  • 대한민국 인구 5천만명(2012623일 기준)140Byte를 가득 채운 트위터 글을 분당 3개씩 244,618년 동안 게시해야 하는 양.
  • Blu-ray Full HD 영화(20GB로 계산) 1,350억개 2시간의 상영시간으로 계산하면 한 사람이 쉬지 않고 3,082만년 동안 시청할 분량.
  • 최신 3TB 하드디스크 9억개 - 대기상태에서의 전력소모량이 3.2W이므로, 전체 정보량의 대기상태에서의 전력 소모량만 288KW로 최근에 가동을 준비하고 있는 원자력 발전소(100KW 발전용량) 3기를 지어야만 하드디스크를 유지할 수 있는 분량. 가격으로는 대당 27만원의 최신기종의 경우 243조원이 소요되어, 우리나라 2012년도 일년 예산인 325조원의 74.8%의 비용.
 
위에 표시된 비교자료는 2012년에만 발생될 것으로 예상되는 정보량에 대한 것이다. 이러한 정보들이 꾸준히 누적된다는 것을 감안한다면, 그 양이 얼마나 큰 것인지를 가늠할 수 있을 것이다. 더욱이 20101ZB의 벽을 넘어선 이후로 정보 생산량의 증가속도는 매년 50%에 달하고 있으며, 디지털 CCTV(Closed Circuit TV)의 설치 증가와 자동차 블랙박스의 장착 의무화 같은 제도는 디지털 정보생산량의 증가를 더욱 부추기고 있다.
이렇듯 엄청난 속도로 증가하는 디지털 정보는 이제까지 다뤄보지 못했던 대용량의 비정형화된 데이터(빅데이터)이며, 이들 대용량 비정형 데이터로부터 유의미한 결과를 얻어내기 위해서는 빅데이터의 저장에서부터 관리 및 활용을 위한 새로운 기술을 필요로 한다.
 
빅데이터는 새로운 것인가?
 
앞에서 언급한 것처럼 디지털 기술에 의해서 정보생산량이 기하급수적으로 증가하고 있는 것을 알 수 있다. 그러나 현재 생산되는 정보량에는 미치지 못하더라도 인류의 오랜 역사기간 동안 수많은 기록들이 존재하고, 17천 년 전의 라스코/알타미라 동굴벽화는 최초의 문화유산에 대한 기록이며, 기원전 4,000년경에는 수메르인들에 의해서 점토판에 쐐기문자로 기록이 남겨졌다. 이후로 빅데이터라는 개념이 자리 잡기까지 무수히 많은 정보들이 생산되었을 것인데, 선사시대부터 지금까지의 많은 정보가 쌓여있다면 이것이 빅데이터가 될 것이다. 그렇다면, 지금 우리가 말하고 있는 빅데이터는 새로운 것이라고 할 수 없으며, 과거에도 수많은 데이터를 갖고 있었으나 저장장소의 제한으로 당장의 유용한 데이터만을 남기고 버릴 수밖에 없는 구조적 한계가 있었다.
최초의 하드디스크가 나온 것은 1956IBM에서 출시한 RAMAC(Random Access Method of Accounting and Control)이라는 제품으로 24인치 원판 50개를 쌓아서 만들었으며, 용량은 3.75MB에 불과하지만 가격은 5만 달러에 달하였다. 당시 발표는 5MiB라고 하였으나, 6bit단위로 오늘날의 8bit단위와 다르기 때문에 정확하게는 3.75MB이며, 따라서 1MB당 가격이 13333달러에 달하였다. 필자가 1989년도에 20MB 하드디스크를 당시에 20만원에 구입하였으며, 1MB1만원으로 약 1,467배가 하락하였으며, 오늘날 3TB의 최신형 하드디스크가 27만원이므로 1GB90원에 불과한 수준으로 약 16,296만 배 하락하였다
 
이와 같은 저장장치 가격의 하락은 그동안 저장장치의 가격이 높아서 버려야만 했던 사소한 데이터들 까지도 모두 저장할 수 있는 환경을 제공하게 되었으며, 점차 쌓여가는 데이터들이 빅데이터를 구성하게 되고, 이를 다룰 수 있는 새로운 기술에 대한 요구가 높아지게 된 것이다. 빅데이터에 대한 관심도는 구글 검색에서 검색어 출현빈도를 나타내는 구글 트렌드에서도 년대별로 확인할 수 있다.
 

 
구글 트렌드에서 확인할 수 있는 것처럼 빅데이터에 대한 트렌드가 나타나기 시작하는 시점은 2006년이며, 이 시점은 하드디스크 저장장치의 GByte당 단가가 1달러 이하로 떨어지는 때이다. 이러한 관점에서 바라본다면 빅데이터는 어느 날 갑자기 탄생한 것이 아니라 많은 사람들이 관심을 갖고 지켜볼 수 있는 주변환경이 갖추어지면서 드러난 개념이라고 할 수 있다.
 
빅데이터를 위한 기술과 활용
 
빅데이터는 앞에서 살펴본 것처럼 헤아릴 수 없을 정도로 많은 데이터를 의미하고 있다. 그렇다면 빅데이터를 위한 기술은 어떠한 것이 있을까? IDC의 칼 올롭슨은 크기가 큰 데이터를 처리한다고 모두가 빅데이터 기술은 아니라고 하였으며, IBM3V, 즉 다양성(Variety), 규모(Volume), 속도(Velocity)라는 빅데이터의 세 가지 요소 중에서 2가지 이상을 만족하면 빅데이터 기술이라고 정의하고 있다.
McKinsey Global Institute의 빅데이터 관련 보고서IDG Korea에서 발간한 빅데이터의 이해에서는 빅데이터 기술을 3가지로 구분하고 있으며, 이는 빅데이터 분석기술과 인프라 기술, 표현기술이다. 빅데이터 분석기술은 거대한 데이터를 분석하는 기술과 방법론으로써 통계처리, 데이터마이닝, 데이터 융합, 자연어 처리, 회귀분석, 기계학습, 최적화, 신경망, 패턴인식, 예측 모델링, 시뮬레이션 등 다양한 분석 기술을 포함하고 있다. 인프라 기술은 빅데이터를 수집하고 처리, 관리하는 기술로써 빅 테이블(분산 데이터베이스), Business intelligence(BI), 분산 데이터베이스(카산드라), 클라우드 컴퓨팅, 데이터웨어하우스, 분산 시스템, 분산 파일 시스템, 맵리듀스(MapReduce), 메쉬업(Mashup), 메타데이터 등을 포함하고 있다. 빅데이터의 표현기술은 데이터시각화로 알려져 있으며, 분석 처리된 결과를 사람들이 잘 이해할 수 있도록 보여주는 것으로 태그구름이나 클러스터그램, 이력플로우, 공간정보의 흐름과 같은 데이터시각화 예가 있다.
 

그림 태그구름의 예
 
그렇다면 빅데이터와 함께 많이 등장하는 하둡(Hadoop)은 어떤 기술인가? 하둡은 오픈소스소프트웨어 프레임워크로써 아파치 v2 라이선스 하에서 활용할 수 있는 빅데이터 인프라 기술이다. 하둡은 하둡 분산 파일 시스템(HDFS: Hadoop Distributed File System)을 이용하여 거대한 클러스터에 존재하는 서버들 간에 대용량의 파일을 신뢰성있게 저장하도록 설계하였으며, 하둡 맵리듀스(Map/Reduce)라는 거대한 분산처리를 표현할 수 있는 자바기반의 프레임워크 와 함께 빅데이터의 핵심 기술로 알려져있다. 이러한 파일 시스템과 분산처리 플랫폼에 추가적으로 검색이나 데이터 수집 시스템, 데이터 분석 프레임워크를 추가하여 인프라를 구축한 것이 하둡이다.
이러한 빅데이터는 다양한 분야에 응용될 수 있으며, 현재 여러 분야에서 비용절감에 효과적으로 이용되고 있다. 대표적으로 맥킨지 보고서는 미국 의료서비스분야, 유럽의 공공서비스, 전 세계 개인 데이터, 미국의 소매점, 제조업 분야에서 비용과 생산성에서 많은 이득을 얻는 것으로 보고하고 있다.


댓글 없음:

댓글 쓰기