앞서 설명한 적이 있듯이 데이터사이언티스트는 데이터를 분석하고 가치있는 결과를 찾거나 비즈니스를 고도화하기 위해서 수학적, 통계학, 공학적 모델을 만들어서 활용하는 일을 업으로 하는 사람들을 말한다.
위의 정의를 보면 알 수 있겠지만 데이터를 다루는 것을 잘해야 하지만 그것은 수단일 뿐 목적이 아니다. 가치를 찾는고 비즈니스 판단을 돕고 고도화를 위한 모델을 만드는 것이 목적이므로 그것을 할 수 있는 것이라면 어떤 것이라도 필요한 경우에는 쓸 수 있어야 한다. 그렇게 때문에 데이터사이언티스트가 여러가지 도구를 능숙하게 사용할 수 있다면 상황에 따라 대처할 수 있는 범위가 넓어지기 때문에 매우 유리하다.
일반적으로 데이터사이언티스트는 다음과 같은 도구를 많이 활용한다.
아래의 목록들은 사람들이 주로 사용하는 것들 중 빈도가 높은 순으로 나열한 것으로 제품의 품질과는 직접적인 관련이 없다. 또한 소속된 회사의 비즈니스나 연구하고 있는 분야, 회사에서 담당한 업무에 따라 각기 선호하는 도구나 주력으로 사용하는 도구가 제각기 다르다는 것을 알려둔다.
※ Matlab은 공학계산 및 모델링을 위한 도구이지만 분석을 하는데 충분히 활용이 가능하다.