恶意的网络爬虫行为在网络数据采集的过程中不仅会占用网络带宽、消耗机器资源,甚至会影响正常用户对网站服务的访问速度,导致网站出现无法访问的情况,更有可能窃取网站的核心数据。因此,通常情况下针对爬虫采集策略制定相应的网站反爬虫策略,可以从源头上阻止恶意爬虫对网站的访问,对于维护网站系统的稳定和数据保护具有重要的现实意义。

网络爬虫是什么?

网络爬虫(Web Spider)又称网络蜘蛛,是通过模拟浏览器的方式对目标网站发起请求,从而实现自动抓取特定规则下互联网信息的程序或者脚本的一种技术。

恶意的网络爬虫行为在网络数据采集的过程中不仅会占用网络带宽、消耗机器资源,甚至会影响正常用户对网站服务的访问速度,导致网站出现无法访问的情况,更有可能窃取网站的核心数据。因此,网站维护者与网络爬虫程序编写者之间无时无刻不在进行着攻与防的对决。

网站的反爬虫策略都有哪些?

1. 基于数据包字段的反爬虫策略

数据包Headers是区分浏览器和正常用户操作行为的主要标识字段,可以通过检测数据包Headers中的User-Agent和Referer字段作为判别是否为爬虫的重要手段。

2. 基于用户行为的反爬虫策略

通过检测用户行为,可以发现同一IP短时间内多次访问同一页面或者同一账户短时间内多次进行相同操作。一般爬虫可采用IP代理躲避网站检测或限制访问频率躲避检测。

3. 基于网站流量统计和日志分析的反爬虫策略

通过分析日志的方式来识别网页爬虫不是一个实时的反爬虫策略。可以通过部署的网站流量系统记录的真实用户访问IP来进行识别,对于短期内出现大量访问的行为可在参考流量系统分析结果结合人工判别的情况下,有选择地加入黑名单;此外还可以通过网络设备(路由器、防火墙等)限制网站被访问的网段,但基于网络设备依靠IP识别做阻断,误伤概率较高。

(文章来源:《保密科学技术》,作者:黄克敏/贵州航天计量测试技术研究所;文中图片来源:百度图库)

声明:本文来自保密科学技术,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。