1. 爬虫的合法性
网络爬虫领域现在还处于早期的拓荒阶段,虽然已经由互联网行业自身的协议建立起一定的道德规范,但法律部分还在建立和完善中。
目前,多数网站允许将爬虫爬取的数据用于个人使用或者科学研究。但如果将爬取的数据用于其他用途,尤其是转载或者商业用途,则依据各网站的具体情况有不同的后果,严重的将会触犯法律或者引起民事纠纷。
同时,也需要注意,以下两种数据是不能爬取的,更不能用于商业用途。
(1)个人隐私数据,如姓名、手机号码、年龄、血型、婚姻情况等,爬取此类数据将会触犯个人信息保护法。
(2)明确禁止他人访问的数据,例如,用户设置过权限控制的账号、密码或加密过的内容等。
另外,还需注意版权相关问题,有作者署名的受版权保护的内容不允许爬取后随意转载或用于商业用途。
2. robot.txt协议
当使用爬虫爬取网站的数据时,需要遵守网站所有者针对所有爬虫所制定的协议,这便是robot.txt协议。
该协议通常存放在网站根目录下,里面规定了此网站中哪些内容可以被爬虫获取,以及哪些网页内容是不允许爬虫获取的。robot.txt协议并不是一份规范,只是一个约定俗成的协议。爬虫应当遵守这份协议,否则很可能会被网站所有者封禁IP,甚至网站所有者会采取进一步法律行动。在著名的百度与360的爬虫之争中,由于360没有遵守百度的robot.txt协议,爬取了百度网站的内容,而最终被判处70万元的罚款。
由于爬虫爬取网站时模拟的是用户的访问行为,所以必须约束自己的行为,接受网站所有者的规定,避免引起不必要的麻烦。