如何用R做数据预处理
售价0
学习人数 1178 课时数量 6课时 课程时长 1小时 6分钟
课程介绍

本视频是林荟在统计之都海外线上沙龙第20期的分享,观看Slides,下载R代码

演讲者介绍

林荟博士现任杜邦公司商业数据科学家,曾经在Iowa State University先后担任兽医学院统计咨询师及商学院统计咨询师,研究兴趣在预测模型,机器学习,数据可视化,市场营销调查分析,消费者行为分析,自然语义处理和文本挖据,健康与疾病统计分析等方面。

演讲摘要

本次沙龙将介绍常用的建模前的数据预处理、数据整合方法,以及如何用R实施。许多数据分析相关课程介绍模型,算法和统计推断。但在实际应用中,刚到手的原 始数据通常都不能直接用于建模。数据预处理是将原始数据转化成能够用于建模的一致数据的过程。建模失败的原因有多种,其中之一就是在建模前没有对数据进行 恰当的预处理。数据预处理会极大的影响建模结果,如缺失值填补和对离群点的处理显然会影响统计分析的结果。因此这是整个分析流程中非常关键的一个环节,这 一步没有到位,之后的分析就如同在沙地上建房,及其不稳固。

在实际分析项目中,通常需要经历的数据预处理流程:

  1. 检查数据:变量分布,是不是存在错误的观测
  2. 缺失值填补:了解缺失原因,选择填补方式
  3. 数据变换:取决于需要建立的模型,对不符合正态分布假设,变量尺度差异大,有离群值的数据进行变换
  4. 检查共线性:找到高度线性相关的变量,决定删除变量,还是使用PCA,CFA这类非监督方法得到不相关的变量线性组合
  5. 稀疏变量:查找并且删除稀疏变量
  6. 编码名义变量:对于不能作用于分类变量的模型,将分类变量转化成0/1名义变量
版权声明

本课程讲师已授权雪晴数据网发布本视频,任何组织或个人都不得违反原演讲者的版权声明:

对于COS海外沙龙发布的视频,访问者可将视频用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯统计之都及相关权利人的合法权利,若转载需注明出处。本视频不允许转载用于商业用途,盗版必究。

课时列表
友荐云推荐
1178位共同奋斗的同学
高晓松
高晓松
zd
zd
糖糖TYZ
糖糖TYZ
su45
su45
学习R
学习R
班头
班头
flyingsky2008
flyingsky2008
bysy
bysy
orochi
orochi
登录 注册