최근에 “데이터 분석”은 작은 데이터를 분석하지 않고 큰 데이트를 빠르고 많이 분석하기 때문에 빅데이터 플랫폼과의 관계를 깊이 고민해야만 한다. 이제는 분석해야 할 데이터의 양이 많고 계속해서 새로 입수되는 데이터를 인적, 물적 자원의 한계로 삭제해서 버리던 데이터를 보관하고 이렇게 쌓인 데이터로 기존의 분석 작업을 더 발전시키나 회사의 비즈니스 개발 또는 고도화를 위해 새로운 분석 모델을 만드는 일들이 점점 일반화되가는 추세이기 때문이다.
빅데이터는 용어에 비해 그 개념을 이해하기 확실히 이해하기 어렵기 때문에 구분을 해서 기억하는 것이 좋다.
크게는 아래의 두가지로 구분해야 한다.
벽데이터의 기술적 개념은 아주 단순한데서 출발한다. 한대의 대형 컴퓨터로 처리할 수 없는 양의 데이터를 처리하려면 어떻게 해야 하는가? 라는 문제를 해결하기 위한 것들이다.
오래전부터 빠른 속도로 증가하는 데이터의 양 때문에 로그 프로세싱, 데이터 집계 및 데이터 처리에 많은 시간을 소요하게 되었다. 1대 또는 소수의 몇대의 컴퓨터로는 대량의 데이터를 처리하지 못하거나 시간이 너무 오래결려 현실적으로 가능하지 않다고 봐야했다. 이것은 여러개의 코어를 가진 컴퓨터 프로세서로도 해결이 되지 않았다. 이런 한계를 만난 시점부터 여러대의 컴퓨터를 묶어서 데이터를 분배해서 따로 처리하게 하고 다시 병합하도록 하는 분산 컴퓨팅 기술이 발달하게 되었는데 빅데이터는 대량의 데이터를 다루므로 분산 컴퓨팅 기술이 필수적이다.
클라우드 컴퓨팅은 구름속에 있어 밖에서 볼때는 뭐가 있는지 모르지만 그냥 그 안에 필요한 것이 있으면 꺼내 쓴다는 의미로 용어가 만들어진 것이다. 보통은 필요한 서비스를 인하우스(in-house)에서 만들어서 사용하거나 솔루션 업체로부터 제공받아 구축해서 사용하는 것이 아니라 솔루션 업체의 서비스를 그대로 온라인으로 연동해서 사용하는 것을 통칭해서 말한다.
클라우드가 빅데이터와 관련이 있는 것은 분산 컴퓨팅의 서버들을 한데 묶거나 소프트웨어를 설치해서 환경을 구성하는 것도 분산 컴퓨팅에서 구동되는 플랫폼이나 프로그램을 작성하는 것 만큼 인적자원을 많이 소모하고 큰 부담이 되기 때문이다.
빅데이터에서의 목표는 대량의 데이터를 처리해서 가치를 찾고 합리적인 비즈니스 결정을 하거나 인사이트를 얻는 것이지 대량의 컴퓨터를 편하고 효율적으로 관리하는 것은 아니다.
데이터의 처리 및 활용은 빅데이터로 해결하고 빅데이터에 필요한 환경구성이나 자원들은 클라우드 기술을 활용하는 방식으로 분업화되어 있다고 생각하면 된다. 벽데이터와 클라우드는 상호보완의 관계이다.