2017年1月7~9日 · 北京

《R语言数据分析与挖掘案例实战》
培训课程(北京站)

  • 参加学员可获得由工业和信息化部通信和信息技术创新人才培养工程颁发《数据分析与挖掘应用工程师》职业水平证书

立即报名

主办方

雪晴数据网

课程介绍

培训目的和特色

  • 课程由在业界有多年应用经验的讲师提供,确保培训不是纸上谈兵,请看往期学员的经验总结《与R成长,从0到1》
  • 将R语言的教学与工程实践相结合,可以让初学者更快应用到实际工作中;

针对人群

  • 各省市、自治区从事金融、医疗、保险、电商、卫生、统计、银行、通信、环境、基金、等金融衍生品行业与数据分析统计相关的企事业单位技术骨干、科研院所研究人员和大专院校相关专业教学人员及在校学生,以及广大R爱好者。
  • 参加学员可获得由工业和信息化部通信和信息技术创新人才培养工程颁发《数据分析与挖掘应用工程师》职业水平证书

我们的客户

学员评价

做为学员,体会到雪晴数据网的培训课程有三个最大的特点:

第一个就是实用,因为培训老师都有着丰富的项目经验,课程从设计到教学都是从一个非常实用的角度,特别强化一些实际工作或研究中会碰到的问题的解决方法,并且结合了实际案例进行解说,真正能让学员学以致用。

第二个就是深入浅出,课程的设计有合理的层次,首先,在让初学者通俗易懂的时候,也不乏让有基础的同学在系统性巩固基础知识的同时,也学到一些之前可能忽略掉的一些实用的小技巧,其次,课程会带领学员有序的,渐渐深入一些比较深度的内容,所以,整个培训在课程内容充实的基础上,保证了大家都能将每个知识点都变成自己的收获。

第三个就是前沿性,目前市场上有各种培训,书籍,介绍着各种各样的工具以及研究方法,在这个咨询量爆发的时代,我们需要把不多的学习时间有效率用在真正能学到“干货”的地方,雪晴数据网的培训课程不仅课程内容实用性强,而且精选了各种主流的数据研究方法,作为课程内容,让我们这些来自企业的担任数据分析职能的人员,能够在短短几天的培训中,对一些数据分析新领域快速的入门,以及对自己现有技能进行一个有效的强化,感谢雪晴数据网。

—— 励敏,安吉斯媒体集团,部门总监

当时我是公司派来学习的,因为工作上需要用到R语言。三天的培训,时间很短,但是老师丰富的经验足够带我这样零基础的学员入门,并且教了比较重点和常用的知识。虽然短暂的三天成为不了R语言高手,但是足够让自己从中找到很多工作上需要用到R语言包,并且完成工程任务。很感谢这样实用的培训,如果有机会参加进阶的学习,我还会参加。

—— 王挺,北京数字新思科技有限公司,产品经理

邀请陈堰平老师给我们部门做R语言及统计的短期培训源于我们部门承接的操作风险量化预测的项目需求,陈老师在有限的培训时间内给我们介绍了常见厚尾统计分布模型,常用的R统计算法库及优秀的ggplot工具在数据可视化方面可以带给我们的帮助。他做了我们在R及统计方面的很好的引路人,使我们在后续使用R完成统计分析工作上有了很大的信心。

—— 陆锋,花旗金融信息服务(中国)有限公司,项目经理

关于R语言

R语言介绍

R语言是一种用来进行数据探索、统计分析、作图的解释型语言。它具有丰富的数据类型、灵活多样的作图功能,以及数量众多的算法功能包;提供了有弹性的、交互的环境来分析和处理数据;正由于R软件此强大的功能,同时具有灵活、开放、易于掌握、免费等诸多优点,目前已在各行各业赢得数据分析者的青睐,并成为众多科研工作者、商业机构、与公司进行数据分析非常重要的一门工具。

为什么要选择R语言

  • 免费的软件。
  • 编程方便,语言灵活,图形功能强大。
  • 用户量增加最快的统计软件。
  • 优秀的内在帮助系统。

R语言现状

国际上R语言已然是专业数据分析领域的标准。

R语言优势

  • 统计学家和前沿算法(9500+ 扩展包)。
  • 可以部署在任何操作系统,例如Windows、Linux、Mac OS X、BSD、Unix。
  • 强大的社区支持。
  • 高质量、广泛的统计分析、数据挖掘平台。
  • R语言的强大分析能力+LaTeX完美的排版能力,可以自动生成分析报告。

R语言认知度

在最近一次数据挖掘领域语言流行度的调查中,R语言位居数据挖掘领域所有语言之首。2014 Dice Tech Salary Survey统计显示美国平均收入最高的IT技能是R语言,2013年的掌握R技能的人均收入为115K。O'Reilly Data Scientist Survey同样显示R技术者年收入在110K-125K。[查看原文...]

讲师介绍

陈堰平

雪晴数据网(http://www.xueqing.tv)创始人,微软公司兼职顾问。主要从事统计咨询、金融数据分析、开发基于R语言的定制化统计软件,曾给惠普中国研发中心、花旗银行、东方航空、中国电信做过培训和咨询。现在同时也是统计之都管理团队成员,中国R语言会议理事会成员,曾获CQF国际数量金融认证,译作有《R语言编程艺术》《实用数据分析》,目前还参加其他几本R语言图书的编写和翻译。

课程安排

本次讨论会采取“线上+线下”的方式,雪晴数据网已经上线了数门在线课程,免费向公众开放,我们会在课程里介绍R语言的基础知识。参加线下课程的学员,除了可以学习线上免费课程,还可以在线下学习更加深入的行业案例,并在课后得到线下课程的视频。

线上课程

  1. R语言的介绍及基础语法:如何学习R,R的数据结构,控制语句等
  2. 读写数据:从文件、网络、数据库等数据源读取数据,保存数据到文件、数据库
  3. 数据整理入门:数据的变换、重塑、拆分合并以及汇总
  4. 数据可视化:基础绘图系统、lattice、ggplot2等介绍

线下课程

第一天

第一讲: R语言介绍及R语言基础语法

  1. 什么是R 及如何学习R
  2. Rstudio,扩展包,工作空间。
  3. 数据对象
  4. 向量化操作
  5. 函数和控制语句
  6. R命令提示符及R 脚本文件

涉及知识点:

  • dplyr包:数据整理、筛选、汇总
  • ggplot2:数据可视化
  • 探索性数据分析:交叉表
  • 预测性分析:利用指数平滑等方法预测销售量
  • knitr包:自动化报表
  • flexdashboard包:仪表盘

案例一: 针对一份跨国大型超市的订单数据,从产品、客户、地区等维度来分析销售额和利润,也可以时间的维度纵向分析销售趋势。

案例二: 莆田医院的可视化

第二讲: 数据整理与描述统计及用R爬取网络数据并可视化

  1. 数据变换、重塑及拆分合并
  2. 汇总数据、字符串操作、日期操作
  3. R 语言中的可视化函数
  4. 单变量的特征 、比例的构成
  5. 多变量的关系、展现时间的变化

第三讲: 用R做可重复研究和自动化仪表盘

  1. 三因素重复测量的方差分析
  2. 如何用R在重复研究中自动生成分析报告
  3. 可视化展示:并用shiny包创建基于Web的动态仪表盘,实现各地区销售额动态比较图
  4. 用knitr编写自动化报告

第二天

第四讲: R在统计及线性回归

  1. 普通及广义最小二乘法
  2. 简单线性回归
  3. 回归诊断
  4. 多元回归
  5. 非参数回归
  6. 参数估计、假设检验;回归分析、方差分析;主成分分析、因子分析、聚类分析等等

涉及知识点:

  • glm、glmnet等函数的使用
  • 因子变量的处理
  • 共线性的识别和处理
  • Logistic、多分类Logitic、定序Logistic模型的参数估计,以及模型系数的商业理解

案例三: 根据网站日志分析顾客行为

案例四: 手机用户偏好分析

案例五: 公司财务预警建模

第五讲: Logistic回归及多分类Logistic模型

  1. logistic回归原理
  2. 实现原理及输出解释
  3. 无序多分类的logistic回归模型
  4. 多分类有序反应变量logistic回归应用

第六讲: 定序回归模型及神经网络模型

  1. 定序数据
  2. lirobit定序回归
  3. ANN应用及R包介绍

第三天

第七讲: 决策树(C4.5、CART及C5.0算法)

涉及知识点:

  • rpart、C50、randomForest、xgboost等包的使用
  • 利用caret包做数据清洗、模型训练、模型效果评估
  • ROC曲线与最佳阈值的选取
  • 根据数据挖掘的商业目的来优化模型
  • 机器学习模型特征选择和参数调优

案例六:银行精准营销模型

案例七:图片识别

第八讲: 组合算法:Bagging、boosting和随机森林

  1. Bagging算法过程
  2. boosting回归问题算法过程
  3. 随机森林算法在数据集上的使用

第九讲: 高级机器学习方法:xgboost

  1. 机器学习定义与基础
  2. R语言与机器学习的关系
  3. xgboost原理和参数意义及选取
  4. xgboost包的使用
  5. 机器学习与R编程

第十讲: 深度学习

深度学习方法及定义

报名费

3900元/人 (12月25日前报名并缴费的学员可享受优惠价,优惠幅度请致电询问)
含报名费、授课费、教材资料费、场地费、证书费、午餐费。
住宿及其他费用自理。

咨询方式

如果想了解本次课程详细信息、索要纸质邀请函或者近期培训计划,请通过以下方式联系
联系人:陈老师
电话:186-0002-1946
邮箱:contact@xueqing.tv

填写报名表