데이터 프로세싱 응용 - Practical Data Processing

데이터 프로세싱

“데이터 프로세싱”은 한국어로 바꾸면 데이터 처리가 된다. 데이터 처리라고 하며 그 범위가 너무 넓어 어디부터 어디까지 구체적으로 무엇을 데이터 처리라고 하는데 일일이 나열하기가 너무 여렵다.

그럼에도 불구하고 우리는 몇가지 큰 범주(category)로 데이터 프로세싱을 나눌 수 있다.

물리적 데이터 처리

물리적 관점에서의 데이터 처리는 데이터를 저장하기, 변형하기, 색인만들기, 삭제하기, 수정하기, 찾기, 탐색하기와 맡은 행위를 하는 것을 말한다. 이런 물리적인 작업은 간단한 형식의 텍스트 파일인 csv, tsv, yaml, xml, json과 같은 것을 저장공간에 저장한 후에 별도의 프로그래밍을 통해 처리할 수도 있고 RDBMS(관계형데이터베이스)중 하나를 이용할 수도 있고 NoSQL 플랫폼 중에 하나를 쓸 수도 있다.

이런 작업을 데이터과학자가 직접 하는 일은 현재는 많지 않고 대부분 데이터 엔지니어가 이런 작업을 전담해서 처리한다. 그렇다고해서 데이터과학자가 데이터 엔지니어가 하는 일을 잘 알고 있어야 한다. 데이터의 활용이라는 전체의 큰 그림에 물리적인 처리 방식에 대해서도 잘 이해하고 있어야 전체의 흐름을 디자인하거나 다른 사람이 만든 설계에도 어드바이스를 통해 좋은 결과물을 얻을 수 있도록 과정을 관리하게 하고 틀렸거나 위험이 보이는 부분을 발견했다면 변경하도록 할 수 있기 때문이다.