用RSelenium打造灵活强大的网络爬虫
售价0
学习人数 26 课时数量 1课时 课程时长 0小时 29分钟
课程介绍

12月2日~3日,由华东师范大学统计学院、教育信息技术学系、数据科学与工程学院携手共同主办的第十届中国R会议(上海)在华东师范大学召开。雪晴数据网创始人陈堰平老师发表了题为《用RSelenium打造灵活强大的网络爬虫》的演讲。

用R写爬虫程序,常用的组合是RCurl+XML,或者用Hadley的rvest,这两种组合对静态页面都能很好地抓取,但是对用Javascript生成的动态页面束手无策。

Selenium 是一个Web浏览器自动化测试框架,而 PhantomJS 是一个基于 Webkit 的无 UI 的浏览器。RSelenium提供了对Selenium Webdriver API的绑定,可以让用户使用R语言操纵浏览器的行为、捕获浏览器渲染出来的页面元素,说简单点,你可以用R代码来点击网页上的按钮、填验证码、获取屏幕截图、获取页面数据。

陈老师在演讲中演示了以下案例:

  • 全国PPP综合信息平台

  • 通过关键词搜索微信公众号文章

  • 航班历史信息的抓取

  • 截图保存HTML5幻灯片

  • 登录微博,输入验证码,搜索关键词


演讲视频我们做了后期剪辑,2分钟后基本都是录制的屏幕画面,可以看清代码。

课时列表
友荐云推荐
授课教师
雪晴数据网创始人,北理工大数据创新学习中心导师团成员,2017年1月获“微软最有价值专家”荣誉称号。毕业于中国人民大学统计学院,曾获CQF国际数量金融认证,先后任新华社指数中心技术总监、SupStat Analytics中国区首席技术官。在统计咨询、数据挖掘、开发数据驱动的商业解决方案等领域有近十年的经验,曾为国家统计局、微软、惠普、德勤咨询、联想、丰田、招商银行、花旗银行、东方航空、中国移动、中国电信、中国联通等机构做过数据科学方面的培训和咨询。曾开发贝叶斯动态线性模型的R包ssDLM,译作有《R语言编程艺术》、《实用数据分析》和《R语言临床数据分析》,主讲的在线公开课《R语言数据分析入门》、《R语言大规模数据分析实战》已在多个平台上发布,累积学习人数过万人。
26位共同奋斗的同学
QUIET
QUIET
xueqing
xueqing
初八
初八
Joyliness
Joyliness
robert
robert
wwwwwww
wwwwwww
luoma
luoma
he_ge
he_ge
hewenjun
hewenjun
登录 注册