![[뉴스 깊이 읽기] ‘빅 데이터’란 무엇일까](http://image.imnews.imbc.com/news/2012/econo/article/__icsFiles/afieldfile/2012/12/17/15.jpg)
2012년에 이어 2013년에도 '빅 데이터'가 유망 키워드로 부상하고 있다. 에릭 슈미트 구글 CEO에 따르면 전 세계에서 2일 단위로 생성되는 데이터양이 인류 문명의 시작부터 2003년까지 생성된 데이터의 양과 동일하다고 한다. 이처럼 기존의 데이터 관리 및 분석 방법으로는 감당할 수 없는 막대한 양의 데이터를 빅 데이터(Big Data)라고 한다. 또한 이러한 데이터로부터 의미와 가치를 추출하고 그 결과를 분석하는 기술까지 통틀어 칭하기도 한다.
![[뉴스 깊이 읽기] ‘빅 데이터’란 무엇일까](http://image.imnews.imbc.com/news/2012/econo/article/__icsFiles/afieldfile/2012/12/17/1_2.jpg)
규모(Volume)
- 데이터의 크기. 웹 로그 데이터나 한메일, gmail 등의 메일 MIME 데이터는 수 PB 이상이 되지만 트위터 네트워크 데이터는 수십 GB 미만이다. 앞의 데이터는 안정적인 저장이 가장 큰 이슈이지만 네트워크 데이터는 분석 및 처리가 가장 중요하기 때문에 단순히 물리적인 크기가 아니라 데이터의 속성과 처리하는데 있어서의 용이함을 가장 우선으로 둔다.
다양성(Variety)
- 전통적인 기업의 데이터 분석은 기업 내부에서 발생하는 운영데이터인 ERP, SCM, MES, CRM 등의 시스템에 저장되어 있는 데이터베이스 데이터였다. 이런 데이터는 잘 정제되어 있고 의미도 명확하다. 하지만 최근에는 이런 데이터뿐만 아니라 기업 외부에서 발생하는 SNS, 블로그, 뉴스, 게시판 등의 데이터나 사용자가 업로드 한 파일, 콜 센터의 고객 상담 내용 등 비정형 데이터도 처리할 수 있는 능력이 있어야 한다.
속도(Velocity)
- 데이터를 처리하는 속도. 방대한 데이터를 배치 분석하는 것만을 의미하는 것이 아니라 필요에 따라 수많은 사용자 요청을 실시간으로 처리한 후 처리 결과를 반환해주는 기능도 필요하다.
빅 데이터의 규모, 다양성, 속도 등은 새로운 통찰력(insight)을 제공한다. 빅 데이터를 분석하면 고객이 무엇을 원하는지, 시장은 어떤 방향으로 변하는지, 업무환경은 어떻게 개선하는 게 바람직한지 등에 대한 답을 얻을 수 있다. 이렇게 되면 고객 만족도는 높아지고, 기업의 수익은 개선된다. 빅 데이터가 빅 인사이트(Big Insight)를 가져오고, 빅 인사이트(Big Insight)가 빅 밸류(Big Value)를 낳는 셈이다.
그러면 빅데이터는 어떤 회사가 주도하고 있을까?
지금까지의 소프트웨어는 Oracle, IBM, HP, MS 등과 같은 미국의 소프트웨어 회사 중심이었다면 클라우드 컴퓨팅 이후부터의 기술은 인터넷 서비스 업체인 Google, Yahoo, Facebook, Amazon 등이 주도적으로 이끌고 있다.
전통적인 소프트웨어 회사는 그 기술 자체가 회사의 경쟁력이고 판매 되는 상품이었기 때문에 공개되지 않았다. 하지만 인터넷 서비스 업체는 기술 자체로 비즈니스를 하는 것이 아니라 그 기술을 이용한 서비스로 비즈니스를 하기 때문에 기술 공개에 있어 자유롭다고 할 수 있다.
그리고 이런 회사들이 진정한 빅데이터를 다루고 운영하는 경험이 있는 회사라고 할 수 있기 때문에 빅데이터는 전통적인 소프트웨어 벤더에 의해 만들어진 시장이 아니라 글로벌 인터넷 서비스 업체들에 의해 만들어진 시장과 기술이라고 할 수 있다.
![[뉴스 깊이 읽기] ‘빅 데이터’란 무엇일까](http://image.imnews.imbc.com/news/2012/econo/article/__icsFiles/afieldfile/2012/12/17/20_1.jpg)
빅 테이블(Big Table)
- 구글 파일 시스템 상에 구축된 상용 분산 데이터베이스 시스템
- H베이스에 영향을 미침
카산드라(Cassandra)
- 분산 시스템에서 방대한 분량의 데이터를 처리할 수 있도록 디자인 된 오픈소스 데이터베이스 관리시스템. 이 시스템은 원래 페이스북에서 개발했으며 지금은 아파치 소프트웨어 재단의 한 프로젝트로 관리되고 있음
데이터웨어하우스 및 분석 어플라이언스
- 데이터웨어하우징을 위해 서버, 스토리지, 운영체제, 데이터베이스, BI, 데이터마이닝 등 기타 여러 가지 소프트웨어가 최적화되어 설치된 통합제품
분산시스템
- 동시에 일을 처리하기 위해 네트워크로 연결된 컴퓨터들의 집합
- 단일 또는 다수의 컴퓨터 리소스를 부분적으로 활용함으로써 시스템의 가격 대비 성능비, 안정성, 확장성을 향상시킬 수 있음
구글 파일 시스템
- 구글에서 개발한 분산파일 시스템, 하둡(Hadoop)과 관련 있음
하둡(Hadoop)
- 분산시스템 상에서 대용량 데이터 처리 분석을 지원하는 오픈소스 소프트웨어 프레임워크
- 구글이 개발한 맵리듀스를 오픈소스로 구현한 결과물
- 야후에서 최초 개발되었으며 지금은 아파치 소프트웨어 재단의 한 프로젝트로 관리되고 있음
H베이스(Hbase)
- 구글의 ‘빅 테이블’을 참고로 개발된 오픈소스 분산 비관계형 데이터베이스
- 파워셋에서 개발했으며 현재는 아파치 소프트웨어 재단에서 하둡(Hadoop)의 일환인 프로젝트로 관리되고 있음
맵리듀스(MapReduce)
- 분산 시스템 상에서 대용량 데이터 세트를 처리하기 위해서 구글이 제안한 소프트웨어 프레임워크, 하둡(Hadoop)에서도 구현되었음
비관계형 데이터베이스
- 비관계형 데이터베이스는 데이터를 테이블에 저장하지 않는 데이터베이스이며 관계형 데이터베이스와는 대조적인 개념
- 이를 사용하면 스키마 없는 엔티티(NoSQL)를 관리할 수 있음
자료출처
한국정보화진흥원(2011). '新가치창출 엔진, 빅 데이터의 새로운 가능성과 대응 전략'
함유근,채승병(2012). “빅데이터, 경영을 바꾸다”
IBM(2011). “Why Big Data Why Not”
김형준 '빅데이터란 무엇이고 어떻게 해야 할까?' http://www.jaso.co.kr/451

당신의 의견을 남겨주세요