Learning/Data Science

Coursera Data Science Specialization 수강후기(2)

bangsil 2017. 12. 13. 13:22
반응형

코세라 데이터 사이언스 과정에 대해서 듣고 있고 그 2편, 한 과목씩 간단히 소개를 해보려고 한다.

http://bangsil.tistory.com/3 ◀◀◀◀ Coursera Data Science Specialization 수강후기(1) 보기

 

 

각 코스는 코스의 순서대로 듣는 것이 가장 좋긴하다. 물론, 다른 관심있는 분야들이 먼저 있다면 1번 The Data Scientist’s Toolbox 와 2번 R Programming 코스는 필수로 듣고 시작해야 한다.

★<Data science Specialization 코스 팁과 요약>

- 프로그램을 아무 것도 할 줄 몰라도 된다.

- 각 코스를 듣는 순서는 상과없지만 1번 The Data Scientist’s Toolbox 와 2번 R Programming 코스는 필수로 듣고 시작해야 한다. 

-  R프로그램을 쓴다.

- 배우는 것들 : R, Github, R markdown, knitr, R presentation, Shiny app 등

- 좋았던 점 : Swirl이라는 프로그래밍 연습할 수 있는 패키지, 이 정도 들으면 R의 기본은 다 다룰 수 있다.

- 아쉬웠던 점 : 통계가 데이터분석에서도 필요하다는 것은 알지만 생각보다 깊게 들어가서 놀랬다. 이미 알고 있는 내용이라서 그럴 수도 있다.

- 각 코스는 한 달씩 듣는 걸로 되어 있지만, 먼저 끝낼 수도 있고, 한꺼번에 들어도 된다. 시간내 못 마칠거 같으면 Switch Session을 이용하여 늦출 수 있다. 동료 평가의 경우 놓치면 평가해줄 사람이 없기 때문에 최대한 맞춰서 제출하고 정 안될 경우 Switch Session하자.

 

1. The Data Scientist’s Toolbox

정말 아무것도 모르는 사람들이 들어도 되는 beginner 코스

R 프로그램 설치부터 Github 사용법 등 수업을 듣는데 필요한 툴들을 배우는 코스이다. 마음먹고 보면 1주일이면 끝낼 수 있는 코스이다. 이 코스와 2번 코스 R programming 코스를 같이 들으면 충분히 들을 수 있다.

2. R Programming

R 프로그래밍의 기초를 배우는 코스. R 사용법과 기초 프로그램을 하는 방법 등을 배운다. 존스홉킨스 데이터사이언스 코스의 가장 좋은 점은 Swirl 이란 R 프로그래밍을 배울 수 있는 프로그램을 제공한다는 것인데, 아무 생각없이 따라하다보면 R 코드에 대해서 저절로 이해하게 된다.

아무것도 모르고 시작한 사람이라면, 제일 중요하게 차분히 배워야 하는 코스이다.

3. Getting and Cleaning Data

R의 기초에 대해서 1코스와 2코스에 대해 배우고 난 후에 슬슬 실전을 위한 연습에 돌입한다. 엑셀파일, 텍스트파일, 인터넷에 있는 데이터 들을 불러오는 방법부터 이런 데이터를 가공하는 방법까지 배운다.  dplyr을 이용해서 데이터를 grouping 하는 법 등 데이터를 다루는 방법에 대해서 배우는 코스이다.

4. Exploratory Data Analysis

데이터분석을 위해 ggplot을 이용하여 필요한 데이터의 그래프를 그리는 방법과 분석하는 방법을 배우는 코스이다. 데이터 분석에는 역시나 필요한 그래프를 적절히 그려내어야 날카로운 분석이 가능한만큼 이번 코스도 무척 핵심이 되는 코스이다. 그래프를 그리기 위해서는 데이터를 받아와야 하고 가공해야 하기 때문에 물론 3번코스를 듣고 들어야 한다.

5. Reproducible Research

제일 고생했고, 제일 도움이 많이 된 코스이다. 사실 이 코스를 제일 마지막에 들었는데 사실 Switch Session (과제등을 못 마쳤을 경우 다음 수강기간에 맞추어 미루는 것) 을 2번이나 했다. 그러니까 6주가 걸렸다. 그 이유는 우선 동료평가가 2번이나 있던 코스였고.. 프로젝트도 만만치 않았다.

R로 문서를 예쁘게 만들어 내는 R Markdown과 knitr를 배우고, R 문서를 웹에 올리는 R pubs까지 배우는 코스이다. 다른 코스들은 몰라도 이 코스는 꼭 들어봤으면 한다. 순서는 상관없으니 이 코스를 꽤 뒷부분에 듣는게 좋을 듯하다.

6. Statistical Inference

기본 통계적 지식을 듣는 코스. 사실 나는 1,2코스를 같이 듣고 바로 다음에 3코스와 6번 코스를 같이 들었다. 사실 전공이 수학과인지라 이미 다 아는 내용. 통계적 지식이 있으면 1주일이면 충분하다. 확률 계산부터 T-test 등 기초 확률에 관한 것은 이 코스 하나로 끝낼 수 있다.

7. Regression Models

6번 확률 코스와 이어지는 코스이다. 회귀분석을 배운다. Linear Regression, Multivariable Regression, Logistic Regression, Poisson Regression을 다루고 있다. 기본 확률 지식이 있으면 그리 오래 걸리지는 않는 코스이다. 나는 회귀분석쪽은 linear밖에 안 다뤄봐서 총 2주정도 걸렸다.

8. Practical Machine Learning

이 것도 힘들게 들은 코스. 한 달을 꽉 채워 들었다. 우선 머신러닝에 대한 기본지식조차 없는 상태라 "Practical"이 얼마나 practical한 수준으로 다룬 코스인지 감이 오지 않았다. 그래서 갑자기 뭔가 동떨어진 수업을 듣는듯한 느낌이 들어서 힘들었다. 그래도 머신러닝이니 데이터들이 무거워서 내 노트북으로 R을 돌리기가 너무 버거웠다. 결국 데스크탑에서 결과값 하나 나오는데 엄청 힘들게 냈던 것 같다. 별로 추천하고 싶지 않은 코스.

9. Developing Data Products

비교적 쉽게 끝낼 수 있는 코스. Shiny app에 대해서 다루고 있고 다른 R로 presentation을 만들때 유용하게 쓸 수 있는 다양한 패키지들을 설명하고 있다. 요즘에는 대학교에서도 R을 가지고 프레젠테이션을 예쁘게 만들어서 발표한다는데, 알아두면 좋은 것들이 정말 많았다.

10. Data Science Capstone

실전 코스. 문자 보낼때 텍스트를 예측하는 프로그램을 만드는 것을 함께 해보는 거다. 마지막이라 힘들게 듣고 있지만 크게 도움은 되지 않는 것 같다. 다만 지금까지 배운 것들을 총 망라해 써야 하는 코스라서 Specialization 코스를 마무리 하기에 딱 알맞게 만들어진 코스같다.

도움이 많이 되는 코스였다.