数据科学入门指南

发布时间: 2015-07-16 阅读数: 3682

数据科学虽然刚刚兴起,却发展迅速。只要有数据的地方,就需要数据科学团队来分析、挖掘数据。因而,在各个行业都需要大量的数据科学家。2015年,数据科学家的平均年薪已经达到10万美元,而且还在快速的上涨。丰厚的待遇和对人才的大量需求吸引着大批的人开始学习这一领域。

数据科学包含着诸多领域的理论和技术,其中包括应用数学、统计、机器学习、模式识别、数据可视化、数据仓库等等,其涉及到的知识范围只广,往往令很多初学者望而却步。数据科学的基础是线性代数和统计,但这并不意味着我们一开始就守着一堆讲基础理论的书籍学起。因为这会带给你很大的心理负担,而且很快你就会对它失去兴趣。所以我并不建议从最基础的数学理论开始学习数据科学。下面的这些建议会告诉你如何高效、快速的入门数据科学。

数据科学路线图

数据科学路线图

1. 时刻关注数据

数据科学是一个十分庞大和繁杂的领域,真正的掌握这门学科需要付出巨大的努力。因而,你需要想学习其他领域时一样,设定目标和动机。你需要不断的提醒、激励自己,让你在中途想要放弃的时候相信自己可以做下去。
你可以选择一个你感兴趣的领域作为切入点,比如如何预测股票市场。尽管你并不了解如何才能做到这一步,但是有了目标,你就可以开始尝试。尝试编写第一个程序,即便它一点实际的作用都没有,但是以此为基础,你会做得越来越好。

当你有了这个目标,你会时时刻刻想着如何提高程序的效果。你会时刻关注那些与股票市场有关的数据,并且思索如何利用这些数据和知识让你的程序更加出色。

当然,你可以选择你感兴趣的任何领域作为出发点,而且可以是某一领域的一小部分。比如,如果你对社交网络感兴趣,那么你就会想着如何从微博或者twitter获取有用的数据,然后从这些数据当中挖掘出你想要的东西。如果你对NBA感兴趣,那么你可以收集NBA的历史数据,预测谁是这个赛季的MVP和冠军队伍。

请记住,数据无处不在,所以从现在开始,时刻的关注数据,并且思考我可以从数据中获取哪些信息,即便目前你还没有办法去实现。

2. 边做边学

虽然学习神经网络、图像识别或者高级自然语言处理技术会很有趣,但其实,大多数的数据科学并不涉及到这些知识。所有记住以下要点尤为重要。

  • 90%的工作将是数据的清洗
  • 掌握甚至精通少数几种算法,要好过对所有的算法都一知半解
  • 如果你已经很好的掌握了线性回归,K-均值聚类和逻辑回归,能够解释模型的结果,甚至独立的完成一个项目,那么你比哪些对所有算法一直半解的人更可能被录用。

大多数的情况下,当你开始学习新的算法是,记得去找哪些已经写好的库函数,这将省去你大量的时间。事实上,大多数算法我们不需要去自己实现,因为这会消耗大量的时间。 这些要点的核心在于,学习数据科学最好的方式是从项目出发。当你处理某个项目时,你会直接接触到哪些实际且有用的模型和技巧。

如果你手头没有项目,那么你可以尝试找一个你喜欢的数据集,设定一个你感兴趣的问题,然后尝试解决它。以下的链接包含了很多适合入门的数据集:

另一种解决办法是,你可以根据你设定的目标领域,来寻找一些你可以解决的问题。比如,预测股票市场,那么,首先,你可以学习链接yahoo的API,然后爬去日常的交易数据。然后,你可以根据这些数据建立简单的指标,比如过去几天内的平均价格等等,然后使用这些数据预测未来。当然,这样做的预测效果是很差的,这就需要你去学习统计知识,然后应用简单的模型,比如线性回归。随着你获取的数据量的增长,你会考虑的数据存取的问题,这个时候你就需要学习数据库方面的知识了。 这种边做边学的模式会带你避开那些冗杂的细节,并且在这个过程中,你会学会如何真正的做数据科学。

3、学会交流学习

数据科学的终点是结果的展示,这就意味着你可以接触到很多高手做过的案例。你可以在github上找到大量这样的项目,而且你可以看到他们的程序。学习别人的程序特别是高手的程序,是数据科学进阶的有效途径。

尝试着重复作者的工作,在这个过程中,你会了解到这个模型的细节以及数据科学的方方面面,比如如何更好的组织你的成果。

一开始,去学习别人的案例特别是比较复杂的案例是很低效的,下面这些建议可以帮助你提高效率:

  •  建一个博客,开始记录并分享你的分析。
  •  尝试向别人(比如你的家人,同学)解释模型。这个过程会加深你对概念的理解。
  • 加入一个交流组,从中你会学到很多
  • 使用github来管理你的代码和项目
  • 加入像Quora,dataTau这样的社区,试着解答别人的问题。

4、与他人合作

学会合作是成为数据科学家的捷径,因为别人的经验可以帮你快速的积累知识和资源。你可以试着:

  • 从讨论群里面找一些人。
  • 和他人合作,修改开源的项目
  • 和你感兴趣的项目的博客作者联系,试着加入其中。
  • 加入Kaggle比赛吧,所有的大牛都在这里较量和交流。

5、不断的提高学习的难度

不要满足于你做完的项目,不要停止学习和使用新的概念。记着不断的提高知识的难度。数据科学是一座高山,停止学习意味着你永远无法到达顶点。 你可以试着:

  • 处理一个大数据,学习hadoop和spark
  • 看看你可不可以让你的程序跑的更快一点
  • 你是否可以将你的程序或算法实现并行
  • 深入的了解模型的细节
  • 尝试指导一名新手

结束语

在学习数据科学的过程中,没有明确的路线指导你该作甚饿。但是,养成这些良好的习惯,你会很自然的成为以为数据科学专家。

掌握正确的方法和习惯,任何人都可以掌握这门科学。

一些有用的资源

 

本文由邢代涛编译自How to Actually Learn Data Science

分享到:
热门文章

REmap发布,用R绘制百度迁徙图

2015年07月23日更新 21085次阅读

学习R语言,一篇文章让你从懵圈到入

2016年05月09日更新 14670次阅读

清华大学教授:大数据时代 统计学依

2015年08月07日更新 11291次阅读

在R中填充缺失数据—mice包

2015年12月31日更新 10743次阅读

精通 R plot—第一部分:颜色

2016年01月20日更新 9549次阅读

非统计学专业的人该如何学习 R 语

2015年07月24日更新 8107次阅读
热门课程

R语言初级课程

2015年02月20日发布 3231名学员

R语言高效数据清理工具包dplyr

2015年08月30日发布 1690名学员

R语言数据分析入门

2016年05月10日发布 1566名学员

如何用R做数据预处理

2016年06月03日发布 1160名学员

全栈数据工程师养成攻略

2016年11月08日发布 1019名学员

R语言大规模数据分析实战

2015年12月17日发布 952名学员
登录 注册