用RSelenium打造灵活强大的网络爬虫
售价0
学习人数 119 课时数量 1课时 课程时长 0小时 29分钟
课程介绍

12月2日~3日,由华东师范大学统计学院、教育信息技术学系、数据科学与工程学院携手共同主办的第十届中国R会议(上海)在华东师范大学召开。雪晴数据网创始人陈堰平老师发表了题为《用RSelenium打造灵活强大的网络爬虫》的演讲。

用R写爬虫程序,常用的组合是RCurl+XML,或者用Hadley的rvest,这两种组合对静态页面都能很好地抓取,但是对用Javascript生成的动态页面束手无策。

Selenium 是一个Web浏览器自动化测试框架,而 PhantomJS 是一个基于 Webkit 的无 UI 的浏览器。RSelenium提供了对Selenium Webdriver API的绑定,可以让用户使用R语言操纵浏览器的行为、捕获浏览器渲染出来的页面元素,说简单点,你可以用R代码来点击网页上的按钮、填验证码、获取屏幕截图、获取页面数据。

陈老师在演讲中演示了以下案例:

  • 全国PPP综合信息平台
  • 通过关键词搜索微信公众号文章
  • 航班历史信息的抓取
  • 截图保存HTML5幻灯片
  • 登录微博,输入验证码,搜索关键词
视频列表
课程问答
授课教师
陈堰平,北京友万信息科技有限公司首席技术官,北京理工大学大数据创新学习中心业界导师,微软认证讲师,微软认证解决方案专家(MCSE,数据管理与分析方向),2017年1月当选微软最有价值专家。曾先后任新华社指数中心技术总监、SupStat Analytics中国区首席技术官。在统计咨询、数据挖掘、开发数据驱动的商业解决方案等领域有十年的经验,曾为人保财险、国家统计局、微软、惠普、野村综研、德勤咨询、联想、丰田、招商银行、花旗银行、东方航空、中国移动、中国电信、中国联通等机构做过数据科学方面的咨询和培训。擅长讲解R语言和Python数据挖掘、网络爬虫、机器学习以及人工智能等课程。译作有《R语言编程艺术》、《实用数据分析》和《R语言临床数据分析》。
119位共同奋斗的同学
田野先生
田野先生
huangway
huangway
JoeCao
JoeCao
penggp
penggp
phsantiago
phsantiago
yanzhanghua
yanzhanghua
恬馨
恬馨
Caiman
Caiman
牧马人
牧马人
登录 注册