2017年4月21~23日 · 北京

《R语言机器学习核心技术与应用》
培训课程(北京站)

主办方

雪晴数据网

雪晴数据网是以数据科学为主题的在线社区,运营实体为绘辰科技(北京)有限公司。网站包含视频课程、问答、资讯等模块。雪晴数据网专注于大数据、数据分析、数据挖掘、数据科学技术的普及和推广,致力于向数据科学从业者提供沟通平台。雪晴数据网已成为Microsoft高级分析培训团队的在中国大陆地区唯一的合作伙伴,也是RStudio公司在中国大陆唯一的合作伙伴。

课程介绍

培训目的和特色

  • 课程由在业界有多年应用经验的讲师提供,确保培训不是纸上谈兵,请看往期学员的经验总结《与R成长,从0到1》
  • 将R语言的教学与工程实践相结合,可以让初学者更快应用到实际工作中;

针对人群

  • 各省市、自治区从事金融、医疗、保险、电商、卫生、统计、银行、通信、环境、基金、等金融衍生品行业与数据分析统计相关的企事业单位技术骨干、科研院所研究人员和大专院校相关专业教学人员及在校学生,以及广大R爱好者。

我们的客户

学员评价

做为学员,体会到雪晴数据网的培训课程有三个最大的特点:

第一个就是实用,因为培训老师都有着丰富的项目经验,课程从设计到教学都是从一个非常实用的角度,特别强化一些实际工作或研究中会碰到的问题的解决方法,并且结合了实际案例进行解说,真正能让学员学以致用。

第二个就是深入浅出,课程的设计有合理的层次,首先,在让初学者通俗易懂的时候,也不乏让有基础的同学在系统性巩固基础知识的同时,也学到一些之前可能忽略掉的一些实用的小技巧,其次,课程会带领学员有序的,渐渐深入一些比较深度的内容,所以,整个培训在课程内容充实的基础上,保证了大家都能将每个知识点都变成自己的收获。

第三个就是前沿性,目前市场上有各种培训,书籍,介绍着各种各样的工具以及研究方法,在这个咨询量爆发的时代,我们需要把不多的学习时间有效率用在真正能学到“干货”的地方,雪晴数据网的培训课程不仅课程内容实用性强,而且精选了各种主流的数据研究方法,作为课程内容,让我们这些来自企业的担任数据分析职能的人员,能够在短短几天的培训中,对一些数据分析新领域快速的入门,以及对自己现有技能进行一个有效的强化,感谢雪晴数据网。

—— 励敏,安吉斯媒体集团,部门总监

当时我是公司派来学习的,因为工作上需要用到R语言。三天的培训,时间很短,但是老师丰富的经验足够带我这样零基础的学员入门,并且教了比较重点和常用的知识。虽然短暂的三天成为不了R语言高手,但是足够让自己从中找到很多工作上需要用到R语言包,并且完成工程任务。很感谢这样实用的培训,如果有机会参加进阶的学习,我还会参加。

—— 王挺,北京数字新思科技有限公司,产品经理

邀请陈堰平老师给我们部门做R语言及统计的短期培训源于我们部门承接的操作风险量化预测的项目需求,陈老师在有限的培训时间内给我们介绍了常见厚尾统计分布模型,常用的R统计算法库及优秀的ggplot工具在数据可视化方面可以带给我们的帮助。他做了我们在R及统计方面的很好的引路人,使我们在后续使用R完成统计分析工作上有了很大的信心。

—— 陆锋,花旗金融信息服务(中国)有限公司,项目经理

关于R语言

R语言介绍

R语言是一种用来进行数据探索、统计分析、作图的解释型语言。它具有丰富的数据类型、灵活多样的作图功能,以及数量众多的算法功能包;提供了有弹性的、交互的环境来分析和处理数据;正由于R软件此强大的功能,同时具有灵活、开放、易于掌握、免费等诸多优点,目前已在各行各业赢得数据分析者的青睐,并成为众多科研工作者、商业机构、与公司进行数据分析非常重要的一门工具。

为什么要选择R语言

  • 免费的软件。
  • 编程方便,语言灵活,图形功能强大。
  • 用户量增加最快的统计软件。
  • 优秀的内在帮助系统。

R语言现状

国际上R语言已然是专业数据分析领域的标准。

R语言优势

  • 统计学家和前沿算法(9500+ 扩展包)。
  • 可以部署在任何操作系统,例如Windows、Linux、Mac OS X、BSD、Unix。
  • 强大的社区支持。
  • 高质量、广泛的统计分析、数据挖掘平台。
  • R语言的强大分析能力+LaTeX完美的排版能力,可以自动生成分析报告。

R语言认知度

在最近一次数据挖掘领域语言流行度的调查中,R语言位居数据挖掘领域所有语言之首。2014 Dice Tech Salary Survey统计显示美国平均收入最高的IT技能是R语言,2013年的掌握R技能的人均收入为115K。O'Reilly Data Scientist Survey同样显示R技术者年收入在110K-125K。[查看原文...]

讲师介绍

陈堰平

雪晴数据网创始人,北京理工大学大数据创新学习中心导师团成员,2017年1月获“微软最有价值专家”荣誉称号。毕业于中国人民大学统计学院,曾获CQF国际数量金融认证,先后任新华社指数中心技术总监、SupStat Analytics中国区首席技术官。在统计咨询、数据挖掘、开发数据驱动的商业解决方案等领域有近十年的经验,曾为国家统计局、微软、惠普、德勤咨询、联想、丰田、招商银行、花旗银行、东方航空、中国移动、中国电信、中国联通、国家检察官学院等机构做过数据科学方面的培训和咨询。曾开发贝叶斯动态预测模型的R包ssDLM,译作有《R语言编程艺术》、《实用数据分析》和《R语言临床数据分析》,主讲的在线公开课《R语言数据分析入门》、《R语言大规模数据分析实战》已在多个平台上发布,累积学习人数过万人。

mvp

李悦

纽约大学金融传媒硕士,特许金融分析师认证(CFA),曾就职于纽约的卖方投资研究机构做数据分析师,现就职于中关村某金融科技创业公司,任资深数据分析师。

课程安排

本次讨论会采取“线上+线下”的方式,雪晴数据网已经上线了数门在线课程,免费向公众开放,我们会在课程里介绍R语言的基础知识。参加线下课程的学员,除了可以学习线上免费课程,还可以在线下学习更加深入的行业案例,并在课后得到线下课程的视频。

线上课程

  1. R语言的介绍及基础语法:如何学习R,R的数据结构,控制语句等
  2. 读写数据:从文件、网络、数据库等数据源读取数据,保存数据到文件、数据库
  3. 数据整理入门:数据的变换、重塑、拆分合并以及汇总
  4. 数据可视化:基础绘图系统、lattice、ggplot2等介绍

线下课程

第一天 第一讲:
R语言介绍及R语言基础语法
  1. 什么是R 及如何学习R
  2. Rstudio,扩展包,工作空间
  3. 数据对象
  4. 向量化操作
  5. 函数和控制语句
  6. R命令提示符及R 脚本文件

涉及知识点:

  • dplyr包:数据整理、筛选、汇总
  • ggplot2:数据可视化
  • 探索性数据分析:交叉表
  • 预测性分析:利用指数平滑等方法预测销售量
  • knitr包:自动化报表
  • flexdashboard包:仪表盘
  • 网络爬虫

案例一: 针对一份电子商务网站的订单数据,从产品、客户、地区等维度来分析销售额和利润,也可以时间的维度纵向分析销售趋势。

案例二: 使用R抓取链家网站数据并分析

第二讲:
数据整理与数据可视化
  1. 数据变换、重塑及拆分合并
  2. 汇总数据、字符串操作、日期操作
  3. R 语言中的可视化函数
  4. 单变量的特征 、比例的构成
  5. 多变量的关系、展现时间的变化
第三讲:
用R做可重复研究和自动化仪表盘
  1. 如何用R在重复研究中自动生成分析报告
  2. 可视化展示:并用shiny包创建基于Web的动态仪表盘,实现各地区销售额动态比较图
  3. 用knitr编写自动化报告
第二天 第四讲:
初等统计方法及线性回归模型
  1. 简单线性回归
  2. 回归诊断
  3. 多元回归
  4. 非参数回归
  5. 参数估计、假设检验;回归分析;主成分分析、因子分析、聚类分析等等

涉及知识点:

  • glm、glmnet等函数的使用
  • 因子变量的处理
  • 共线性的识别和处理
  • Logistic、多分类Logistic、定序Logistic模型的参数估计,以及模型系数的商业理解

案例三: 二手车定价模型

案例四: 网站可疑流量识别

案例五: 学校教学效果评价

第五讲:
Logistic回归及多分类Logistic模型
  1. logistic回归原理
  2. 实现原理及输出解释
  3. 无序多分类的logistic回归模型
  4. 多分类有序反应变量logistic回归应用
第六讲:
混合效应模型及分层线性模型介绍
  1. 方差分析
  2. 重复测量的方差分析
  3. 混合效应模型
  4. 分层线性模型
第三天 第七讲:
树结构模型
  1. C4.5算法构造决策树的过程
  2. CART的算法实现
  3. C5.0算法生成决策树及规则集
  4. 随机森林

涉及知识点:

  • rpart、C50、randomForest、xgboost等包的使用
  • 利用caret包做数据清洗、模型训练、模型效果评估
  • ROC曲线与最佳阈值的选取
  • 根据数据挖掘的商业目的来优化模型
  • 机器学习模型特征选择和参数调优

案例: 利用美国的招聘网站indeed的数据源,借助EDA探索分析方法,寻找可用feature来预测薪资薪酬,建模,评估模型,并选择最优结果

第八讲:
Boosting方法
  1. Bagging的概念和应用
  2. GBM
  3. XGboost
第九讲:
神经网络与深度学习
  1. 神经网络的概念和应用
  2. Back Propogate的概念和理解
  3. 神经网络在美国的发展和应用场景
  4. 深度学习算法及R语言实现

报名费

在职人员3200元/人,学生2500元/人。含会议注册费、资料费、场地费。食宿费用自理。
含报名费、授课费、教材资料费、场地费、午餐费。
住宿及其他费用自理。

咨询方式

如果想了解本次课程详细信息、索要纸质邀请函或者近期培训计划,请通过以下方式联系
联系人:陈老师
手机/微信:136-6072-3699
QQ:529698127 验证信息请填写雪晴数据网R培训
邮箱:contact@xueqingtv.com

填写报名表