数据科学家日常的工作内容都有哪些呢?

发布时间: 2015-09-23 阅读数: 1306

这篇文章是小编在各大网络论坛收集得到的关于数据科学家们日常的一个具体工作内容描述。有志于成为数据科学家的小伙伴们可以提前感受一下哦!

分享1:病哥,用户研究/数据分析http://www.zhihu.com/people/Zxperience

面试过http://Booking.com的 Data Scientist,互联网公司无论国内外应该需求都是相似的,所以应该可以参考一下。他们的Data Scientist并不把自己严格的和Business Analyst区分开来,两个角色同时在公司里存在也会有互换,面临的都是相似且非常实际的Business Case。比如一个实际的例子是他们想要在中国挑选合作对象,手上有近百家公司的数据,现在需要做一个模型来帮decision maker(product owner)做决定。是DS接手还是BA接手来做完全取决于product owners的所在部门。两个角色大多都不是CS出身,一定的统计线性代数背景就够用了。如果要操控大规模数据,自己能上就上,不能上就给工程师提需求。总而言之,都是帮助老板解决实际问题创造效益,title不是很重要。如上所述,一般合作对象: product owner, 工程师。

分享2:徐鹏http://www.zhihu.com/people/xu-peng-42-62

可以把scientist理解为analyst的architect版本。就像程序员和架构师一样。既然是公司,肯定就离不开业务。所以总的来说任何职位归根结底都面向business。scientist能从基础架构,模型实现,业务要素上辅助团队,并整体协调analyst的工作。scientist往往有较强的理论背景,丰富的实践经历和对行业数据的insight。而这些在普通工程师身上都有一些瓶颈,比如接触工程多了,对底层不了解,对现代统计理论认识不足,数学背景有瓶颈,等等。行业insight也很重要,但一般做到scientist会对行业的认识上升到哲学层面,对具体的业务有系统独到的了解方式。最后经验是硬道理,没有足够的训练和反省是担当不起大任的。

分享3:陈代桌http://www.zhihu.com/people/chen-dai-zhuo

在Quora,Data Scientist的主要职责有 1) 建立数据平台、2) 实现产品中依赖数据的部分、3) 通过数据对具体问题进行调查分析、4) 建立模型支持公司的决策。每一个Data Scientist都有不同的侧重点,但平均来说工作量大概各占1/4。日常工作是按照任务(Task)来组织的。每项任务都分配到了具体的人员。有少部分任务是数据部门自己发起的(比如数据平台的建设),基本可以由Data Scientist独立完成。但大部分任务都需要和别的部门紧密合作才能完成。短的任务一个人几个小时就能做完,长的要几个月甚至更久。

分享4:王浩http://www.zhihu.com/people/alexwhu

个人从事数据算法相关工作,一些个人见解如下:数据科学家工作可以包括3个方面: 1、对历史数据的处理平台搭建:具体就是公司的基础数据平台建设和各产品线各业务线的所有metrics指标数据监控 这个数据平台,即包括历史数据的抽取理解和指标表现汇总和展示,更重要的是能提供下面第2、3中的算法、数据挖掘、用户行为分析的基础数据支持和运算能力支撑 2、对历史数据的分析挖掘:具体包括各种各样的产品线的业务分析、用户行为分析与挖掘,为产品完善、用户划分,用户挽留、产品问题等等问题,提供接地气的、有执行价值的以数据为基础的分析挖掘结果和建议。如果建议能执行到产品中(一定要争取作出这种可执行的分析挖掘结果),则还要持续跟踪后续产品数据、用户数据变化和原因,从而形成良性循环 3、基于历史数据做算法预测未来xxx,举例说来,就是各种算法的工作,例如推荐系统,内容分类,用户属性预测等等。这部分工作更多地是融入到具体产品线和业务线中去,解决实际产品和服务中的实际需求。 最后,争取成为一名优秀的数据科学家。共勉。

分享5:LinkedIn数据科学家如何工作

作为社交网络, LinkedIn并不是最大的,也不是生长最快的。成立于2003年的LinkedIn, 花了500天,才达到了100万用户。然而,作为全球最大的职业社交网络,LinkedIn的后劲十足。今天,LinkedIn每6天就新增100万用户。 平均每秒有两个新增用户。每年,LinkedIn的用户搜索量达到了42亿。LinkedIn的数据分析团队每天要分析200TB的数据来更好地了解用户。为什么人们现在如此的关心统计和数据,为什么数据科学家成了最性感的工作, 最近,在TiE的峰会上,LinkedIn的首席数据科学家Manu Sharma接受了采访, 揭秘了LinkedIn的数据分析的工作。以下为采访内容:

问: 能介绍一下LinkedIn的数据科学吗?

答: LinkedIn就是用户的职业社交网络,在这个网络上,如果人们想找你却找不到那么你就可能失去一个机会。因此,对用户来说,保持状态和资料的时时更新非常重要。LinkedIn的业务,就是建立在对这些数据进行分析的基础上的。为了达到对数据实时快速处理的目的,我们开发了自己独特的算法,叫Metropolis。它可以每天实时处理10亿条数据。具备开源的解决方案Voldemort,Kafka,和 Zoie 那样的功能。数据科学家需要具备好奇心和直觉。他们需要想的问题是:我能用这些数据来做什么呢?我需要问什么样的问题?这些数据能告诉我什么?他们还需要足够的直觉来了解他们所采用方法的局限性。数据科学家的工作包括,采集数据,整理数据,建立正确的模型,测试模型,还要有一定的编程能力。一个数据科学家需要具备这些技能,而这些技能也是一个初创企业在建立它的数据科学家团队所需要的技能。

问: LinkedIn数据应用的重点是那几个方面?

答:LinkedIn的数据应用主要在三个方面: 1. 开发创新的数据产品 2. 从内部数据发现趋势和机会 3. 推动业务成长 比如”推理算法”被用来根据用户的数据进行一些信息的推测。这一点对于将来的产品设计尤其重要。比如说,LinkedIn就采用了“推理算法”推出了“你可能知道的人”这个功能。这对增加用户粘性和提高用户口碑传播有极大的帮助。LinkedIn是最早推出这一功能的。现在,这个功能已经成为了社交网络的必备功能了。此外,通过用户在资料里关于技能的描述文本,我们通过文本提取和文本分析,建立起一套技能的关键子字典。通过聚类算法,可以产生很多很有意思的发现来帮助我们提高服务或者推出产品。此外,通过对各个行业的用户数据分析,还可以对行业或者整个经济进行一些预测。(比如:某个行业进行了裁员,或者某些行业的招聘计划增加等等)这样做的一个优点是,这些数据不是来自与问卷调查,这些是用户实实在在的行为数据。所以,在美国总统经济政策报告里,这些数据也会被采用。这些数据同样的对企业的发展也很重要。

问:数据分析最佳实践的原则是什么?

答: 1. 数据量越大越好 2. 原始数据比加工数据好 3. 数据标准和数据质量非常重要 4. 简单模型比复杂模型要好 5. 建模就是要不断进行试错。

分享到:
热门文章

REmap发布,用R绘制百度迁徙图

2015年07月23日更新 19606次阅读

学习R语言,一篇文章让你从懵圈到入

2016年05月09日更新 13543次阅读

清华大学教授:大数据时代 统计学依

2015年08月07日更新 10964次阅读

在R中填充缺失数据—mice包

2015年12月31日更新 9296次阅读

精通 R plot—第一部分:颜色

2016年01月20日更新 7786次阅读

非统计学专业的人该如何学习 R 语

2015年07月24日更新 7741次阅读
热门课程

R语言初级课程

2015年02月20日发布 3096名学员

R语言高效数据清理工具包dplyr

2015年08月30日发布 1624名学员

R语言数据分析入门

2016年05月10日发布 1464名学员

如何用R做数据预处理

2016年06月03日发布 1124名学员

全栈数据工程师养成攻略

2016年11月08日发布 976名学员

R语言大规模数据分析实战

2015年12月17日发布 933名学员
登录 注册