网络爬虫的五大误区

发布时间: 2017-06-28 阅读数: 600

网络爬虫和大数据技术最近几年成为了每个行业商业成功的重要催化剂。来自网络数据的竞争情报和商业洞察不容忽视。考虑到网络上有海量的信息,如果没有自动化网络爬虫技术,就不可能采集并汇总这些数据。网络爬虫对很多公司来说仍然是块硬骨头。其中大多数公司没有资源和技术自己做网络爬取,因为网络爬虫技术是高度要求细分的过程。如果你仍然对网络爬虫持有误解,这是不可接受的。下面列举出几个围绕着网络爬虫的误区,这些误区是应该克服的。

1. 网络爬虫是非法的

许多人认为网络爬虫是非法的行为,要小心翼翼地进行。这完全是错误的,Google就是个巨大的爬虫,爬取每一个不禁止其爬虫访问的网站。在爬取网站的时候,也有些道德规范和最佳实践要遵守。网站通过robots.txt文件来屏蔽爬虫,或者在TOS页面指出不允许爬虫来爬取网站。在法律层面,也有些规矩需要遵守。除此以外,爬取一个网站就像通过浏览器访问它一样是合法的。

2. 爬虫可以获取到有用的数据

网络爬虫程序可以爬取大量的网页,从网页中提取预先定义好的数据,并保存到文件中。但这样并不能保证数据文件的质量和可用性。实际上,最初获取到的数据包含噪声和重复的条目。这里说的噪声是跟所需的数据一起爬取下来的不需要的元素。对于数据重复的问题,要想让数据能够用于分析,清洗和格式化是必要的两个步骤。如果你期待用爬虫程序能获取到干净的、结构化数据,不好意思,这只是个梦。

3. 网络爬虫是自适应的和通用的

网络爬虫实际上是很脆弱的,不过这并不是因为代码写得不好。网站的设计和结构经常会发生变化。这些变化会导致爬虫的失效,因为爬虫是根据前一版的网页编写的。相信爬虫程序能适应网站的变化,只会造成数据的丢失。

4. 网络爬虫可以爬取整个网络的页面

许多人认为爬虫拥有爬取整个万维网的超能力。这完全是错误的,在实际中也不可行。如果你要从网络上获取数据,得先清楚你要的数据在哪儿能找到。你所需数据所在的网站被称为数据源。网络爬取过程的第一步就是定义数据源。网络爬虫脚本在编写的时候仅仅针对的是目标网站,因此当然不能爬取整个网络的页面。因为各个网站都不会按照统一的结构来设计,所以不可能编写一个爬虫脚本来获取多个网站的数据。

5. 爬虫可以用来采集email地址

网络爬虫是种非常强大从网络获取各种数据的工具。能获取的数据包括email地址和联系人信息。这里有个常见的误解,认为使用爬虫程序可以采集email的地址可以当做销售线索。但是这只在理论上成立。尽管你可以从网络上爬取公开的email地址,但是这些邮箱地址对你的业务帮助不大。因为从网络上获取的email并不有针对性,还有不少是人们弃用的。这些邮箱地址是公开的也同样意味着它们已经收到了不少推广邮件,这也会让你的营销变得很低效。

写在后面的话

自从大数据和网络爬虫技术的引入,商业世界得到进一步发展,现在正是你理解更好地理解基础技术的时候。厘清上述的误区能够帮助你踏出利用网络爬虫技术获取数据的第一步,从这些数据再分析出商业洞察,最终帮助你的公司走向成功。


如果想尽快学习并掌握爬虫技术,应该怎么做呢?推荐雪晴数据网的Python实战案例研讨会:爬虫与文本分析

本文翻译自5 Common Web Scraping Myths Debunked

转载请注明出处并附上本文链接http://www.xueqing.tv/cms/article/286,雪晴数据网欢迎大家投稿。

分享到:
热门文章

REmap发布,用R绘制百度迁徙图

2015年07月23日更新 20572次阅读

学习R语言,一篇文章让你从懵圈到入

2016年05月09日更新 14212次阅读

清华大学教授:大数据时代 统计学依

2015年08月07日更新 11142次阅读

在R中填充缺失数据—mice包

2015年12月31日更新 10202次阅读

精通 R plot—第一部分:颜色

2016年01月20日更新 8857次阅读

非统计学专业的人该如何学习 R 语

2015年07月24日更新 7939次阅读
热门课程

R语言初级课程

2015年02月20日发布 3179名学员

R语言高效数据清理工具包dplyr

2015年08月30日发布 1664名学员

R语言数据分析入门

2016年05月10日发布 1531名学员

如何用R做数据预处理

2016年06月03日发布 1150名学员

全栈数据工程师养成攻略

2016年11月08日发布 1008名学员

R语言大规模数据分析实战

2015年12月17日发布 946名学员
登录 注册