데이터사이언스를 하기 위해서 가장 중요하게 필요한 것은 데이터(Data)이다. 데이터가 없으면 그 어떤 고급기술을 가지고 있으며 좋은 아이디어를 가지고 있다고 해도 아무것도 할 수 없기 때문이다.
데이터사이언스에 필요한 것은 업무를 하면서 주어진 회사내의 데이터 또는 연구를 하면서 의뢰인으로부터 받은 데이터 뿐만 아니라 외부의 데이터가 필요한 경우가 많다. 이런 외부의 데이터를 결합하면 단순히 주어진 메인 데이터에서만으로는 얻을 수 없는 사실을 알아내서 활용이 가능한 수준으로 만들 수 있는 경우가 많다.
그래서 필요한 데이터를 어디서 얻을 수 있는지 미리 확인해 두는 것이 좋다. 일부 데이터는 무료로 얻을 수 있으며 일부 데이터는 구매를 해야 할 수 있다. 일부 데이터는 얻을 수도 없으며 판매하지도 않는 것이 있을 수 있다.
정부에서 제공하는 각종 공공정보 데이터이다. 집계의 응집도가 높은 편이라 추이나 참고용으로만 쓸 수 있는 데이터가 대부분이며 제공되는 데이터의 시기도 조금 늦는 편이다. 원천데이터가 없기 때문에 실제 활용도가 떨어지지만 집계된 데이터의 정합성이나 편향성을 확인하는데는 유용한 것들이 많다.
서울시에서 운영하는 데이터제공사이트인데 공공데이터포털과 비슷하다. 서울시에서 관리하는 공공정보를 제공하고 있다.
통계청에서도 당연히 많은 통계데이터를 제공하고 있다. 데이터의 제공 시기가 매우 늦는 편이고 응집도가 매우 높아 통계분석 외에는 실제 활용하기에는 매우 어렵다.
SK에서 상업적인 목적으로 데이터를 제공하는 데이터 거래 사이트
http://a-little-book-of-r-for-time-series.readthedocs.io/en/latest/src/timeseries.html
일단위로 집계된 샘플 데이터 몇개의 링크가 있다