Haste makes waste

Uda-DataAnalysis-[总结]数据分析进阶

Posted on By lijun

1. 结课总结

从2017年9月27 - 2018年3月21日,历时六个月,终于把数据分析的课程学完了。如果不是udacity这种设定了时限的模式,这半年要完成这个课程也是不太可能的,自己多半会以各种借口拖延(工作,家庭等)。

整套课程以 讲义 + 练习 + 项目的方式推进,分成四个部分:

  • 数据清洗,涉及到python对csv/html/json/mongodb等源数据的处理,最后的项目是通过OpenStreetMap了解数据审查清洗全过程。

  • R语言对数据进行探索,经过上面的数据清洗后,使用R语言对数据进行各种探索,如单变量多变量分析及绘图,最终项目是使用R对红酒数据集进行分析,分析影响红酒质量的因素。

  • 机器学习入门,学习机器学习中的常用算法,如朴素贝叶斯,决策树,主成分分析等,使用的是SKlearn包,最终项目是使用学习到的机器学习算法,对安然数据集进行分析,找出诈骗嫌疑人。

  • 数据可视化,学习了D3和Dimple两个javascript包,对数据进行可视化,最后的项目是自选数据集,用D3或是Dimple呈现到html上。

上述过程基本覆盖数据分析的全过程,宽泛但不深入,适合作为一门入门课程,但达不到实际工作需要的水平,幻想通过这个线上课程就完全掌握数据分析是不可能的,即使在实际工作中,应该也没有人能够掌握数据分析的全过程,比如有的人擅长前期数据清洗,有的人擅长数据分析,有的人擅长图形表达。关键是通过这个课程了解了数据分析的全貌,以后在进行某一方面工作的时候,知道如何入手。

2. 下一步

最终目标并不是数据分析,而是进入无人驾驶领域。要在udacity上申请无人驾驶的进阶课程,要先通过无人驾驶入门课程,或是深度学习进阶的先导课程,然后才能直升无人驾驶进阶课程。比较了这两门先导课程的性价比,觉得使用深度学习进阶,深度学习是实现机器学习的一个手段,学习深度学习,有如下前提条件:

  • 线性代数,微积分,统计学等数学基础
  • python中级基础
  • 机器学习

欲速不达,继续按照如下的顺序:

  • uda 描述统计 / uda 推论统计

  • 书:R语言实战(侧重应用上面的统计知识部分,什么是线性回归,主成份分析,交叉验证等概念)

    不用notebook导出的方式,还是用blog比较直观,便于复习,另外为了复习以前的知识,将notebook重新运行,并放到blog上(先不cut,copy的方式)

  • uda 线性代数先入门,达到能够听deeplearning的水平

  • uda 微积分 先入门,达到能够听deeplearning的水平

  • google的机器学习

  • 机器学习实战(同时交叉西瓜书和之前的uda笔记)

  • 如何使用 Git 和 GitHubGitHub & Collaboration

  • MIT的深度学习无人驾驶

3. 参考资料