데이터과학자 스킬셋 - Data scientist skill-set

데이터과학자가 되기 위해서 필요한 것들

여러분은 데이터과학자가 되기 위해서 아니면 데이터과학 기술을 향상시키기 위해서 필요한 기술들이 어떤 것인지 궁금할 것이고 그 중에 부족한 것을 보강해서 더 낫게 개선하고 정복하려고 하는 욕심이 분명 있을 것이다. 하지만 데이터과학자에게 필요한 기술은 매우 광범위하고 현재에도 데이터사이언스에 발을 담그기 위해서 여기저기에서 서로 필요한 기술이라고 주장하며 붙여 넣는 것이 많기 때문에 계속해서 늘어나고 정리가 일목요연하게 되어 있지는 않아 혼란스럽다.

간단하게 정리하면 3가지로 나눌 수 있다.

  • IT 활용능력
  • 데이터 분석 관련 학술 지식
  • 설득 및 설명 능력

IT 활용능력

IT 활용이란 구체적으로 말하면 프로그래밍 기술을 말한다. 데이터를 처리하기 위해서는 프로그래밍 기술이 필수인 시대가 되었다. Excel과 다른 통계분석툴로는 데이터과학을 할 수 없는 것이 아니지만 모든 상황에 유연하게 대처하고 빠른 작업과 자동화가 필수라고 할 수 있기 때문에 프로그래밍 능력이 반드시 필요하며 데이터과학자가 되기 위해서는 주력으로 사용하는 능숙한 컴퓨터 랭귀지가 최소 1개이상은 있어야 한다. 그리고 가능하다면 범용 언어인 것이 좋다. Python이 데이터과학을 위한 언어로 각광을 받는 이유도 그런 필요성을 가장 잘 만족시켜주기 때문이다.

데이터 분석 관련 학술 지식

데이터 분석과 관련된 학술 분야는 사실 꽤 많다. 하지만 이중에 특별히 어떤 학문을 전공한다고 해서 특별히 데이터사이언스에 유리하다고 할 수는 없다.

  • 수학
  • 컴퓨터공학
  • 통계학
  • 경영과학
  • 계량경제학
  • 금융공학
  • 물리학
  • 각종 엔지니어링, 공학, 이학 계열

그래도 이 중에서 데이터사이언스에 가장 적합한 전공은 컴퓨터공학과 통계학이라고 할 수 있다.
데이터과학자의 상당수가 컴퓨터공학 전공인 사람이 많으며 그 다음 통계학 전공자가 많은 것이 그 증거라고 할 수 있다.
하지만 이런 전공을 선택하는 것이 유리한 출발점이 되는 것은 점점 사라지고 있다. 데이터사이언스가 빠른 속도로 일반화되고 있기 때문이다.

사실상 공과는 대부분 데이터를 다루게 되어있고 인문학에서는 숫자와 돈을 다루는 것은 모두 데이터를 다루는 학문이라고 볼 수 있다.
순수 인문학이나 예술과 관련된 학문이 아니라면 현대에는 대부분 수학과 컴퓨터공학은 다른 학문에서도 적극 활용할 수 밖에 없는 도구라고 보면 수학과 컴퓨터공학은 데이터사이언스의 필수이며 다른 학문들은 관련이 매우 깊다고 할 수 있다.

수학

수학은 공학계열에서 반드시 학습해야하는 기초대수학에 포함되는 선형대수, 미분, 적분, 미분방정식까지는 기본학습이 되어야 한다.
수리모형을 작성하거나 통계모형을 이해하고 활용할 때도 기계학습을 할 때도 꼭 필요한 것은 수학능력이다.

컴퓨터공학

컴퓨터 없이 데이터사이언스를 하는 것은 불가능하다.
컴퓨터공학의 매우 깊은 하단까지 데이터과학자가 반드시 이해해야 하는 것은 아니지만 컴퓨터의 구조, 원리, 작동방식, 소프트웨어 기술을 알게 되면 작성한 모델을 구현하고 전개할때 매우 유리하다.
그리고 만들어진 모형은 정확도와 같은 성능도 중요하지만 수행속도와 같은 고속연산도 필요하다.
딥러닝을 하는데 TPU의 원리나 작동방식을 이해하지 못한다면 원하는 결과를 얻기 위해 여러 장벽에 부딪힐 수 있다.

특히 컴퓨터 언어는 여러가지를 익혀 두는 것이 필요하다.

Python, R, C/C++, Java, Javascript, Shell script, Scala, Matlab, Mathematica 등 익혀두어야 할 것이 많다. 하나의 컴퓨터 랭귀지로 현대의 컴퓨터를 이용한 데이터사이언스는 한계에 부딪힐 것이다.

통계학

통계학은 원래 응용수학에 대한 학술분야라고 할 수 있다.
데이터사이언스를 시작하기에 가장 유리한 학술 분야이지만 최근의 순수 통계학은 이론에 집착하는 경향이 매우 많다.
반면 응용통계학은 수학, 컴퓨터공학 능력을 겸비할 수 밖에 없어 여전히 좋은 출발이라고 할 수 있다.

경영과학

경영과학은 영어로 “Operational Research”라고 한다. 기업운영을 하는데 필요한 것을 연구하는 것인데 경영공학이라고도 한다.

경영과학은 대부분 최적화(Optimization)을 해결하는 쪽에 집중한다. 따라서 높은 수학적 능력이 필요하고 역시 컴퓨터 사용이 필수가 된다.
경영과학에서 하는 것이 수요예측, 배송 경로 최적화, 최적 재료 혼합비, 최적 생산 비율 등과 같은 해결책을 찾는 것이 라는 것을 알아두면 이해가 될 것이다.

설득 및 설명 능력

설득 및 설명은 인문학적 소양이다. 데이터를 해석하고 가치를 찾아내고 가설을 검증한 뒤에 할 일은 누군가에게 설명을 하는 일이다. 설명을 하기 위해서는 조리있게 설명을 하고 전달하려는 바를 명확히 전달할 필요가 있다.

  • 시각화
  • 프리젠테이션
  • 리포트

데이터사이언스의 결과물은 데이터 분석 리포트가 될 수도 있고 작성 모형을 배포한 소프트웨어 구현체일 수도 있지만 대부분 리포트를 작성하게 된다. 리포트는 보는 사람이 결과를 알아보기 쉽게 작성해야 한다.
설명을 어렵게 기술하지 않아야 하며 시각화와 도표 등을 잘 활용해야 한다.

시각화는 기술과 예술의 중간쯤에 해당한다. 미적감각도 필요하며 연습도 필요하고 프로그래밍이나 컴퓨터 소프트웨어 활용능력이 필요하다. 연습을 통해 예술 작품을 만드는 것까지는 아니더라도 왜곡없이 사실을 표현해서 주목도를 높이고 이해를 쉽게 할 수 있는 능력이 필요하다.

프리젠테이션은 설명의 능력이다. 여기서 말하는 프리젠테이션 능력은 청중에게 잘 설명해서 현혹시키는 그런 것을 말하는 것이 아닌 잘 정돈된 스토리라인에 따라 전달하려는 바를 잘 전달하는 것을 말한다. 파워포인트와 같은 발표 문서를 잘 작성하는 것도 여기에 포함되며 표현문구를 쓸 때도 고심해서 작성해야하며 그런 능력도 필요하다. 보통 작성한 리포트를 말로 설명하기 위해서 재구성하는 것이 많다.