用RSelenium打造灵活强大的网络爬虫
售价0
学习人数 86 课时数量 1课时 课程时长 0小时 29分钟
课程介绍

12月2日~3日,由华东师范大学统计学院、教育信息技术学系、数据科学与工程学院携手共同主办的第十届中国R会议(上海)在华东师范大学召开。雪晴数据网创始人陈堰平老师发表了题为《用RSelenium打造灵活强大的网络爬虫》的演讲。

用R写爬虫程序,常用的组合是RCurl+XML,或者用Hadley的rvest,这两种组合对静态页面都能很好地抓取,但是对用Javascript生成的动态页面束手无策。

Selenium 是一个Web浏览器自动化测试框架,而 PhantomJS 是一个基于 Webkit 的无 UI 的浏览器。RSelenium提供了对Selenium Webdriver API的绑定,可以让用户使用R语言操纵浏览器的行为、捕获浏览器渲染出来的页面元素,说简单点,你可以用R代码来点击网页上的按钮、填验证码、获取屏幕截图、获取页面数据。

陈老师在演讲中演示了以下案例:

  • 全国PPP综合信息平台
  • 通过关键词搜索微信公众号文章
  • 航班历史信息的抓取
  • 截图保存HTML5幻灯片
  • 登录微博,输入验证码,搜索关键词
视频列表
课程问答
授课教师
雪晴数据网创始人,北理工大数据创新学习中心导师团成员,2017年1月获“微软最有价值专家”荣誉称号。毕业于中国人民大学统计学院,曾获CQF国际数量金融认证,先后任新华社指数中心技术总监、SupStat Analytics中国区首席技术官。在统计咨询、数据挖掘、开发数据驱动的商业解决方案等领域有近十年的经验,曾为国家统计局、微软、惠普、德勤咨询、联想、丰田、招商银行、花旗银行、东方航空、中国移动、中国电信、中国联通等机构做过数据科学方面的培训和咨询。曾开发贝叶斯动态线性模型的R包ssDLM,译作有《R语言编程艺术》、《实用数据分析》和《R语言临床数据分析》,主讲的在线公开课《R语言数据分析入门》、《R语言大规模数据分析实战》已在多个平台上发布,累积学习人数过万人。
86位共同奋斗的同学
余醉
余醉
zhq1018
zhq1018
鸣人吃土豆2018
鸣人吃土豆2018
陈么么
陈么么
ljw伟
ljw伟
jx_yue
jx_yue
Pandas
Pandas
nvenve
nvenve
weijigucun
weijigucun
登录 注册