网络爬虫反爬策略研究

2022-08-24 来源：易榕旅网

网络爬虫反爬策略研究

作者：胡俊潇[1];陈国伟[1]

作者机构：[1]中国传媒大学,北京100024

出版物：科技创新与应用

年卷期：2019年第15期

摘要：网络爬虫在工作时会对目标站点发送大量的请求,这样的爬虫工作方式决定了其会消耗不少目标站点的服务器资源,这对于一个服务器不大的中小型站点来说负载是巨大的,甚至会导致该站点直接崩溃。另外某些网站也不希望自己的内容被轻易的获取,如电商网站的交易额,这些数据是一个互联网产品的核心,因此采取一定的手段保护敏感的数据。因此很多网站都在站点中加入了反爬机制。例如User-Agent+Referer检测、账号登陆及Cookie验证等。文章讨论了几种主流的方法来避免爬虫被目标站点服务器封禁,从而保证爬虫的正常运行。

页码：137-138页

主题词：网络爬虫;反爬虫;抓取策略

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

网络爬虫反爬策略研究