张溪梦:如何将数据科学与商业结合起来

发布时间: 2015-10-15 阅读数: 841

张溪梦:Growing.io创始人,曾任职于美国职业社交网络LinkedIn公司建立并率领LinkedIn商业分析团队支持公司所有与营收相关的核心业务。以下是在数据师行业峰会上的演讲内容。


非常感谢有这次机会跟大家分享我在过去十年里面的经验,也非常感谢经管之家组织这次很好的活动。而且前面听到了在座的各位行业专家的分享,其实我今天讲的东西要重复前面几位专家讲的东西。在过去十二年我在美国工作的时间,学到最重要的东西就是数据决策,我们今天做的只是重复古代人的再次决策,使我们的规模变得更大化。

大家想一想最早的数据分析师在什么时候,其实就是我们中国人,那时候姜子牙给周文王讲天下大事,他讲的就是数据分析,通过对很多微妙的信号衍生出来对于未来的判断,然后产生了各种执行力,最后建立了国家。

今天我跟大家分享的题目是“如何将数据科学与商业结合起来”,我个人认为最核心的关联就是一个人的创造力,一个团队的创造力,一个公司的创造力,一个社会的创造力,这种创造力是关联科学、商业、艺术、文化等最核心的方面。

大家可以看到他们以前的愿景和远见已经变成了事实价值,大家想一想到底什么是数据,我们讲数据、也决策、数据分析,什么是数据。其实数据是非常简单而优美的过程。它关联了四个事物,一是人物,二是地点,三是交互的方法,中间完全关联再一个非常美妙的物理事实上就是时间。每一条数据,都是这种活动最基本的组合。

我们看看再过四年,这个世界会变成什么样的世界。在下面的四年,我们会有40亿人进入到数据的网络之中,这将是一个4万亿美元的市场。我们将产生2500万的各种跟数据有关系的东西。还有将有250亿套设备,连接到通过数据构建的网络里面。大家注意到这不是互联网连接的数据,而是通过数据来连接的世界,刚才几位专家也分享了,工业4.0,很多机器真正连到互联网上去,但是它们内部建造了各种复杂优美的网络,最后就是数据量的问题。

2020年会产生50万亿GB的数据,这是什么概念呢?我想用一些信息来跟大家分享,我之前所在的公司每天生成大约1TB的数据,它是世界上前12最大的网站和手机端。我们怎么做呢?今天大家披露出来的数据,比如说百度,一个数据科学家应该具备什么样的素质。其实这个问题也是我在我原来的公司第一次面试的问题,什么确定了一个好的数据科学家或者是数据分析师他最基本的素质。当时因为在餐馆里面没有笔,也没有纸,后来我们要了一张餐巾纸,拿个笔在餐巾纸上画。

最早的时候,这就是当时在餐巾纸上画的基本元素。首先是所有的环节没有哪个重要,哪个不重要,它是关联在一起的,是同等重要的,也是不可或缺的。比如说统计学,真正好的数据科学家需要很深刻的统计。第二是机器学习的能力。第三是编程,一个好的数据科学家需要有能力用最直观、简单的办法把数据天才展现出来。然后他必须要有商业、运营天然的直觉。他必须要有很深刻的行业知识,不过行业知识是可以跨界的,也是可以复制的。他必须要有很强的数据处理能力,这几个词描述了如何把非结构化、半结构化,甚至是结构化的信息变成我们真正需要的精炼的信息。

我们需要关注的是一个人或者一个组织他很强的沟通能力,因为好的数据科学家必须要有效率的跟公司的各个工程师进行沟通。最后一点就是运筹学,在美国这个学科已经发展了几十年,包括刚才讲的例子,实际上是在一战、二战发展起来的。包括今天举行的例子像Uber和滴滴,他们用运筹学进行大范围的优化,这个能力也是数据科学家基本的能力。

我记得当时在餐巾纸上写完这些以后,这里面缺太多的东西了,什么能力能让一个好的数据科学家变成非常顶级的数据科学家。我们还缺乏什么样的能力。首先,一个好的数据科学家必须有勇气能够创造别人认为不可能的事情,这种东西是一个创造力最基本的核心。

它必须能够把科学、商业、人文、技术、艺术等各个环节进行统和。因为当大家做数据分析的时候,你会发现上本质这个世界本身是非常高度关联的,是有非常深刻统一性。任何事情都在改变,但是它的本源是关联的,一个好的数据科学家,他必须把数据技术和艺术之间相结合。它必须从很深刻的人文观,而不只是把它变成一种科学来对待。

我们必须通过在商业上把它落地,在商业落地的过程中,证明我们各种的理论,我个人认为好的科学家必须有综合的能力。

大家会想这是多么有挑战的事情,到底可不可能实现。如何用数据分析和业务紧密结合。大家看一看这五个环,首先是商业本身是一个非常有规律的过程,而不是一个完全随机出现的。

我们看看这五个环,对品牌的认知、市场运营、产品互动、销售线索、客户忠诚和留存。大家想一想这五个环是不是一个商业生命周期从开始到结束,它不断演化,不断进步,最后结出果实。但是核心的是口碑获取、体验、转化、留存这五个字样,它背后缺乏一个东西是什么,是客户,我们要专注客户的口碑,获取更多的客户,增加客户的体验。转化更多的客户为付费的客户,存留更多的客户。大家看一看所有的还是围绕着人来展开的。

通过五个商业步骤,背后的数据分析如何支撑他们。SOV、CPM、CPC,这些非常古怪的缩写可以透视出很多商业意义。你需要知道我们今天发布的信息被多少人知道,比如说PPC,我的朋友跟我说现在世界上最聪明的人都去搞点击率了。最核心的基础就是40%的业务运营,60%的工具使用。比如说注册,CVC客户获取,我们再往下走是用户要使用你的产品,最简单的DAU、MAU每天有多少活跃用户,每个月有多少活跃用户。PPV、UV分析一个月有多少真正的访客,这里面用户看了哪些文章。比如说有多少交易额,我们再看产品的单价,以及整个的销售额,再看MRR,这是衡量SaaS企业最核心的东西。再看客户本身的生命周期值多少钱。然后是用户成功的指针,如何衡量流失,如何衡量客户忠诚。

大家看到每一个商业环节的背后有大量的分析指针,不是从互联网才开始的。在这之前几十年,各种商业理念得到更多的呈现。

我今天跟大家分享几个案例,就是说如何用数据分析的方法来增进各个业务环节的过程。比如说获取用户,就是用市场营销的方法。产品互动,分享产品的体验,用产品分析。付费的转化,比如说把一个普通用户变成付费用户。再下面是业务拓展,如果把付费用户变成忠诚用户,而不让他流失。

首先,如何增加信用度,我在领英工作的五年中,第一点,非常精确判断用户从哪个渠道来的,必须要进行衡量。第二个,我们每个渠道的效率是什么样的,我们需要衡量每个渠道的转化率,资源投放率,还有最后的LY。特别社交网络的话,这是一个非常复杂的过程,它也不是非常直接的就可以衡量的,而是非常间接的,有网际效应的迭代。最后下面我们要分析每个客户,这些客户到底买没买,转化没转化,有没有变成我们更有价值的客户,这是大部分互联网公司做的也许并没有那么成熟的一点,就是我们往往我们知道客户从哪个渠道来的,但是是否真正转化了,在哪个点转化了,这方面还是比较模糊的。

再下面,就是客户区隔,我们必须针对不同的人群,不同人自营销方案,获取最高的转化率,用最少的成本。再下面就是我们衡量LY,我们再领英是怎么做的呢?第一,我们帮助我们的企业衡量它在领英平台的广告转化率,或者雇佣人的转化率,然后把LY提炼成一个指标,就是一个公司在领英上面或者在世界上面,它的品牌在雇佣上的指数,这件产品后来变成领英内部一个很好的产品卖给了客户。因为客户需要知道自己的企业在世界竞争格局下的位置。

再下面一点,像网站我们如何能够迅速衡量用户是否在网站有各种摩擦,他是否喜欢这个产品,他用的是否顺畅?非常简单,所有互联网的分析或者APP分析,我们可以非常单纯的理解为它是一个漏斗的转化,我们必须强调在漏斗转化中的无摩擦性,顺畅性,流畅度,从而给用户提供很好的用户体验。再下面一点,就是要完善用户画像,这个用户画像本身不止是地理位置,他的职位,他的收入,他的性别,还包括他的倾向性,他喜欢用什么样的老师,他喜欢读什么样的文章等等,这样我们就不断完善用户的画像。

再下面,我们要理解这个用户的倾向,之前做过一个研究,用户的基础画像提供大约,从数据是15%个点的价值,用户的使用行为提供25%-35%的价值。用户倾向提供数据里剩余的60%左右的价值。大家可以看到用户的倾向性是我们增加转化率的一个核心的分析点。最后一点,就是假设检验,其实这是一个很传统的方式,就是我们要带着问题去做,实际上在今天来说的话,这是我个人的感觉,作为十几年的工作经验,真正的现在来说的话,假设这个检验被大数据开始慢慢的颠覆,因为我们从数据里看到很多新的趋势,是人从来没有想到过的。举个例子,像用领英各种资料图做了一个公司的图,发现公司的组织架构能够通过在领英上人与人的关联抽取出来。这点我个人认为以往是没有想到过的。

另外,通过人的流动图可以看一个公司是否IPO,这个信息也不是人们拍脑袋想出来的,而是从数据抽取出来的,看到的趋势。所以说大数据颠覆我们的传统的概念和分析概念。

再讲讲销售,首先我觉得这五个步骤不仅仅适用于对企业的销售,像包括建立网站和社区,我们都需要把用户不断的转化。首先,最重要的一点,就是我们有他们多潜在的客户,哪个客户使最重要的,这点可以通过他在网站,APP上蛛丝马迹的行为进行判断。还有一个,以前在公司里需要派哪个客户去跟雅虎或者亚马逊接触。下面还需要通过数据理解这个公司谁是决策人。再接着需要通过内部网络社交关系,哪个人认识决策者,能让他买我们的产品。最后是如何用数据讲一个真实的故事让客户有更高的信息来采购我们的产品。这五个步骤全部可以用数据驱动,而且驱动的速度是以前别人认为可能需要两个星期,三个星期的决策周期,今天我们可以用在一分钟之内就可以实现,这就是数据科学,技术力给我们带来的价值。

再下面讲讲如何促进用户留存。实际上客户的留存通过他的很多微妙的行为,跟我们讲的很多的很好的故事。我们以前做了很多这样的模型,后来发现真正流失的用户在非常早期就已经释放这种信号。因为用户有几个生命周期,整个流程有生命周期的,往往用户在早期很微妙的行为的加权,就能知道这个客户会在未来哪个时间点会流失。这是我们两三年来做用户的模型,慢慢的把留存的模型的时间线不断的往前提前,最早预算用户流失的时候,立刻发信息。后来发现用户使用好的时候问他怎么用,这样留存率提高了10%。还有在教育的时候是不是要对客户进行培训,各种引导、辅助,后来发现客户的留存度增加了非常非常多。因为这个是领英财报写的,大概从50%流失率降到20%的流失率。这些都是数据和运营相结合的一个很好的过程。

再讲讲现实,一般来说,在一个企业内部,特别是互联网企业,业务端:销售、运营、产品等各种人提出各种需求,雪片般飞来。来到这些部门发现根本没有数据,所以我们需要跟工程人员一起工作把这个数据搜集上来,这是反复迭代,非常缓慢的过程。美国顶级研究机构做了一个调查,只有50%的公司能够在4-5周之内能够把数据搜集上来。注意,是数据搜集上来。只有1%公司能够在一天把这个数据搜集上来,5%的公司能够一周把数据搜集的工作做好,还有剩下50%公司需要花5个星期完成这个搜集循环。再下面我们有分析师,对这些数据进行抽取可视化。最后由科学家、统计学家,战略分析师对数据进行进一步的提炼。这么一个流程就像一个污水处理厂从池子里过滤沉淀、再过滤沉淀,今天可以用比较成熟的新型大数据框架,我们走的还是这个流程。

我们看这张图,这张图反映了当今的互联网企业3%-5%都不到的数据流程,大家想想这是多么复杂,多么昂贵的过程。我们怎么改变它?我只做过一个PPT,这个金字塔的下面大约会消耗人90%的时间。这是一个共识是一个研究机构分析的结果。我们数据工程师只有10%甚至少于10%的时间是真正产生非常大的市场价值。

所以说一定要关注技术,争取把决策推广给很多很多人,这就是大数据带给商业价值一个非常简单的方法。

大家想想我们以前工作很长时间,只能产品10%的价值,90%的时间都浪费在数据清洗上面了。今天公司很多人能做到数据决策,能做到这点就需要我们用先进的工具技术,分析理念,结合先进的业务的方法论,把下面的时间尽量的做到全自动化。大家想想我们节省了90%的时间,如果能把这部精力用在金字塔尖上的话,我们产出效益能达到将近10%。实际上在以前的工作经验里看到,当我们用新兴的技术把底部做小,或者用新型的工具、产品把底部的产品做消失,这会给企业提供价值。孙子兵法有一句话,叫庙算胜者,得算多也,庙算不胜者,得算少也,多算胜,少算不胜。就是不去做数据分析,不去做决策,是很难对这种高密度竞争环境下生存。所以我们今天在座的很多都是行业专家,一定要想办法把数据分析做到全自动化。这就是我们今天的发展方向。

最后讲一讲创造力的问题,旁边一个电影是《谍中谍》,旁边另外一个电影是美国的《星球大战》,旁边是他的学生,当时这个场景是在什么样的环境下呢?你能不能把飞船抬起来,后来他抬起来了。大家可以想一想这是科幻电影里面的故事,其实这是不是,这是现实。当我们认为它不可能的时候,这个事情就变成永久的不可能。

我用一个案例跟大家分享一下,有一个非常优秀的统计学家,他做了一个模型的,他进行了近似尝试,下一个模型他通过互联网模型挣了更多的钱,这就是最终的创造力是要基于信念。大家相信数据一定能给很多人带来价值,我相信在座大家的智慧和领导力、创造力一定能把这个变成现实,谢谢大家。

 

本文来源于数据观转载请注明本文原链接,http://www.cbdio.com/BigData/2015-10/14/content_3964003.htm

分享到:
热门文章

REmap发布,用R绘制百度迁徙图

2015年07月23日更新 19606次阅读

学习R语言,一篇文章让你从懵圈到入

2016年05月09日更新 13543次阅读

清华大学教授:大数据时代 统计学依

2015年08月07日更新 10964次阅读

在R中填充缺失数据—mice包

2015年12月31日更新 9296次阅读

精通 R plot—第一部分:颜色

2016年01月20日更新 7786次阅读

非统计学专业的人该如何学习 R 语

2015年07月24日更新 7741次阅读
热门课程

R语言初级课程

2015年02月20日发布 3096名学员

R语言高效数据清理工具包dplyr

2015年08月30日发布 1624名学员

R语言数据分析入门

2016年05月10日发布 1464名学员

如何用R做数据预处理

2016年06月03日发布 1124名学员

全栈数据工程师养成攻略

2016年11月08日发布 976名学员

R语言大规模数据分析实战

2015年12月17日发布 933名学员
登录 注册