如何成为数据科学家:一位曾经从会计转到统计专业的创业者是如何回答的

发布时间: 2015-09-04 阅读数: 3755

这篇文章源自知乎上的一个问题如何成为一名数据科学家?很多人都发表了自己的看法,其中也有小编的一位朋友,他叫范向伟,是上海交大的研究生,大数据竞赛平台kesci.com的联合创始人,这几天他们正在帮助上海市政府组织上海开放数据创新应用大赛,有兴趣的朋友可以去瞅瞅。以下是他回复的正文:

我本科是学会计的,大四那年幸运得到内推机会,到一家欧洲的基金公司工作,帮老板研究对冲基金的策略。这里有个学数学的法国帅哥每天在用VBA和matlab做衍生品的定价,后来我不小心知道了他的收入,整个人都不好了。恰好那一年,IBM用统计学习技术做出的Watson在Jeopardy上打败了所有的人类对手,我感到了一种前所未有的恐惧感,在Watson面前,我这种靠记忆和小聪明吃饭的人还有什么价值?于是我辞职回家准备出国,要学统计学,申请失败后继续考研,经过许多惊险之后,到了交大读统计硕士。

成为一名数据科学家是一个很大的挑战,我从大四开始用了三四年的时间慢慢转型到了数据科学的方向,深感这个过程对商科、社科(以及不是计算机和数学方向的理工科)的青年来说有多大的挑战。数据科学是人类信息技术和数理科学的大融合,其知识密度和知识深度超过了大多数传统职业,要想从门外从到门内,学会开始驾驭这个庞然大物,有着一座又一座的知识山峰要去攀登,很像是一场创业的经历,高风险、高回报、很辛苦、但也很快乐。

这几年我一直在思考这个问题,到底大数据对我们意味着什么,我们又怎样适应大数据的时代,我觉得无论是要转型成为数据科学家,还是掌握数据分析技能,这是我们每一个人的事情。就像马云最近说的”数据是未来的石油“,谁都离不开它。我想根据自己的经历,从挑战和机遇这两个角度来谈谈,怎么从外行(社科、商科、传统工科)转型成为一名数据科学家,帮助更多像我一样的普通人能够少走些弯路。

大数据时代的技能大挑战

大数据时代,掌握数学和统计,就像在全球化时代掌握英语一样重要。数据已经成为了经济、管理、科研、政府等各个领域的共同工作语言,不懂数学和统计会面临很大的沟通成本。如何在碎片化的时代,克服数学焦虑,掌握数学和统计知识,是每个人都面临的挑战。

数学焦虑是人们面对数学问题时产生的习惯性的焦虑或恐惧情绪,会极大地影响人们解决数学问题的能力,并降低学习数学的兴趣。心理学家发现,对于数学的恐惧是一个很普遍的现象。调查反映,美国有60%的大学生都存在着数学焦虑情绪,而仅有10%的学生是对数学感兴趣的。从牛顿发明微积分算起,现代数学体系是人类最近300年发展出的一套理论体系。数学符号化、抽象化的运作方式,和人类大脑先天视觉化、具体化的思维习惯有着很大的差异

数学学习需要学生保持长时间的注意力集中,也就是要坐得住冷板凳,而这一点正在变得越来越困难。美国高度发达的娱乐产业,已经使得多动症成为了高发的儿童心理疾病。美国中学生的数学水平测试,已经远远落后于亚洲和北欧的学生。虽然有着高质量的教育资源,但薄弱的数学基础使得美国大学生不愿意选择理工科专业,仅有20%的美国大学生毕业于理工科。

理工科人才的缺口,已经限制到了美国经济的发展,迫使奥巴马在2011年发布了“STEM人才培养计划”,其中的“STEM”,是科学、技术、工程、数学四个英文的缩写。BCG在2014年发表的研究报告中发现,美国的高科技行业面临着严重的人才紧缺。科技产业发达的华盛顿州中,有三分之二的科技高端岗位都无法找到合适的员工。 中国学生的数学基础教育是全球领先的,但是数学焦虑也同样普遍。数学基础课的挂科率在各个院校都排名靠前,而大多数学生对数学课程也缺少兴趣。高校的数学系也是报考人数不足,每年都需要通过调剂招生。

数据工作者的门槛不仅在于数学和统计学知识,也在于编程能力和行业经验。 大数据分析基于海量数据的储存、传输和处理,从原始数据到分析结果,需要运用一系列程序。数据分析常用的软件包括比如Hadoop、SQL、R、SPSS、Tableau、Excel,很多工作都需要编程的技能。数据分析的目标是发现问题、解决问题、提高效益,但每一个行业都有特定的问题。行业经验能够让数据分析人员找到问题的方向,抓住问题的重点,从而更有效地利用数据,也能够使分析的结果发挥更大的价值。编程能力和行业经验多许多大学生,也有着不小的门槛,这更是让优秀的大数据人才显得弥足珍贵。

全球资源为我所用

站在国际视角,大数据是所有中国学生的一个机会。大数据技术仍然在发展初期,中国和欧美发达国家站在了同一起跑线。根据联合国的学业能力测试,中国学生的数学基础教育是全球领先的,而且中国的理工科学生占到了总数的50%,远超出美国的20%。中国人口众多,移动互联网的普及也使得数据存量迅速增长。人才储备和数据储备,为中国发展大数据行业奠定了最重要的基础。大数据行业刚刚起步,不仅有着广阔的职业发展空间,而且人才缺口巨大,正在从各个行业吸纳人才。无论是什么专业背景、职业经历,只要坚定个人转型升级的信念,就能抓住大数据时代的机遇

教育是一个人最重要的投资,其价值在技术变革的时代更加凸显。旺盛的需求使得教育成本迅速增长,对于很多家庭,教育已经成为了房产之外最大的负担。而我们在此前的报告也指出,随着高校和企业的差距被技术变革迅速拉大,高校所提供的知识和技能已经难以适应生产力要求。大数据时代的转型升级,前提就是要跟上生产力升级的步伐,充分利用互联网的力量。 大数据生长在互联网的土壤之上,数据通过互联网采集,通过云计算得到处理,而大数据分析所要教育资源和软件工具,几乎全都都能通过互联网获得。

教育作为文化产品,其价格和价值之间并没有必然关系。在传统课堂中投入过多的资金和时间,并不是最明智的选择。互联网教育的发展,让价值巨大的优秀教育也已成为免费的服务。在Edx、Coursera这些在线教育平台上,全球范围内最优秀的教育资源,已经免费开放给了全世界的用户,许多大数据领域的国际专家都在这些平台上开设了免费的学习课程。

优质、免费的教育是互联网给所有青年的礼物,而大数据领域最前沿的技术,也向所有人免费开源。只要掌握了使用方法,每个人都可以运用Hadoop搭建数据储存和计算平台,用R语言进行数据建模和可视化分析。免费的大数据工具功能强大而且性能稳定,在Facebook和IBM这类顶尖企业也被广泛运用。 分析工具的免费,使得每个人都有了学习和运用大数据技术的机会。大数据工具的迅速普及,车多司机少,驾驭工具的人才就出现了严重的供不应求

吸收大数据分析的知识,应用大数据分析的工具,是实现数据化升级的必要条件。掌握大数据的知识和工具虽然有着很高的学习门槛,但是获取大数据的教育资源和分析工具的门槛却已经完全消失。

在实践中赢取持久战

大数据包含了很多领域的知识和技能,数学、统计、计算机是基础,行业经验、背景知识也必不可少。庞大的知识体量,使得大数据的学习成为了一场持久战。按部就班地学习教科书中的理论,对于大多数人来说并不现实。理论的讨论是可以无限延伸的,面对庞杂的技术理论和漫长的学习周期,很少有人能够坚持下来,这也是数据人才长期紧缺的原因之一

真正可行的方式,是小处着手,循序渐进,在实践中学习理论。实践问题有着具体的场景,理解的成本更低,学习的目标也更明确,从而更容易坚持下去。麻雀虽小,五脏俱全,许多大数据项目的技术相对简单,却蕴含着很大的价值。比如银行业广泛应用的信贷风险模型,采用了基础的回归模型,大幅降低了银行坏账和经济损失。学习大数据,不妨选定一个感兴趣的职业方向,在实践项目中磨练技能,理解理论。在阶段性的成果中,不断获得成长的动力,在良好的心态中赢取这场持久战。

只要用数据思维看问题,实践大数据技术的机会其实很多。阿里巴巴的首席数据官,车品觉先生就给出一个精彩而朴实的例子。他看到属于个人的信息资料,已经远远超出了人们的记忆负荷,于是运用大数据的思想,在“印象笔记”中把自己所有的重要资料都进行了系统化地标记和检索,大幅度提高了工作的效率。 信息化的时代,利用数据创造价值的机会越来越多 ,而通过实践内化数据化的思维和技能,我们才能真正抓住这样的机会。我们能用从学会用大数据管理个人数据开始,到Kaggle这样的平台中参与大数据分析比赛开始,在项目团队中学习知识,实践技能。

大数据时代的合作精神

要想做好大数据分析,除了知识和经验,还要有充分的合作精神。大数据是信息技术和数理理论的大融合,没有人能解决全部的问题。在企业和学术界,一个典型的大数据分析项目,需要各方面的专业人士的通力合作,包括擅长统计理论的数据科学家,搭建计算平台的数据工程师,经验丰富的行业专家和数据分析师,以及负责数据可视化的设计师。计算机、管理、设计、数学、统计等各个专业的同学,都能够在大数据项目中,找到属于自己的独特位置。 在大数据分析项目,每一个同学的专业技能不仅仅停留在脑海中,而是在各个专业的同伴帮助下,转化成有实际价值的作品

我们的高校仍然沿袭着工业化的组织结构,不同知识背景的同学被专业和学院割裂开来,身边的朋友和自己的背景都十分类似。要想开始大数据的实践,就必须找到目标一致、又技能互补的合作伙伴。可是怎样找到一群可以共事的合作者?首先可以加入学校的数学建模社团、数据分析协会,这里往往聚集了全校数学基础最扎实的同学。我们也可以寻找有特定技能和背景的同学,组成优势互补的项目团队,一起参加大数据分析的比赛。

真正的机会往往是以挑战的形式出现,大数据带来的职业挑战背后,正是绝佳的发展机会。大数据技术要求的数学基础和编程技能,确实有着很高的学习门槛,然而优质的教育资源、开源的数据分析工具、合作实践平台,也让我们拥有了驾驭大数据,实现大价值的机会。 是留在门槛之下,做一个随时可能被技术替代的旧青年,还是在实践积累中跨越门槛,成为掌控技术能量的新青年,选择在我们自己手中。

 

本文内容源自知乎,转载请注明本文原链接 http://www.xueqing.tv/cms/article/view/id/20
分享到:
热门文章

REmap发布,用R绘制百度迁徙图

2015年07月23日更新 19606次阅读

学习R语言,一篇文章让你从懵圈到入

2016年05月09日更新 13543次阅读

清华大学教授:大数据时代 统计学依

2015年08月07日更新 10964次阅读

在R中填充缺失数据—mice包

2015年12月31日更新 9296次阅读

精通 R plot—第一部分:颜色

2016年01月20日更新 7786次阅读

非统计学专业的人该如何学习 R 语

2015年07月24日更新 7741次阅读
热门课程

R语言初级课程

2015年02月20日发布 3096名学员

R语言高效数据清理工具包dplyr

2015年08月30日发布 1624名学员

R语言数据分析入门

2016年05月10日发布 1464名学员

如何用R做数据预处理

2016年06月03日发布 1124名学员

全栈数据工程师养成攻略

2016年11月08日发布 976名学员

R语言大规模数据分析实战

2015年12月17日发布 933名学员
登录 注册