探讨在线抓取技术和如何防范相关攻击
如何定义网络蜘蛛人? 网络爬虫本质上是一段计算机程序或脚本,其按照一定的逻辑和算法规则自动地抓取互联网信息。 网络爬虫按照实现的技术和结构可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫等。在实际的网络爬虫中,通常是这几类爬虫的组合体。 1、通用网络爬虫(Scalable Web Crawler) 通用网络爬虫又叫作全网爬虫,爬取的目标资源在整个互联网上,由于信息量巨大,常用于大型的搜索引擎中。 2、聚焦网络爬虫(Focused Crawler) 聚焦网络爬虫,也叫主题网络爬虫,是指按照预先定义好的主题,有选择地进行相关网页爬取的一种爬虫。和通用网络爬虫的区别在于,聚焦网络爬虫在实施页面抓取时会对内容进行处理筛选,将爬取的目标网页定位在与需求相关的页面中。目前爬虫应用中绝大多数是聚焦爬虫这个程序。 3、增量式网络爬虫(Incremental Web Crawler) 增量式网络爬虫在爬取网页的时候只会在需要的时候爬取新产生或发生更新的页面,对于没有发生变化的页面则不会爬取。这样能有效地减少数据下载量并及时更新已爬取过的网页,减少时间和存储空间上的浪费,但该算法的复杂度和实现难度更高。应用场景包括某电商网站会实时更新一批最近商品,书籍网站根据作者创作的进度实时更新最新的章节数据等,遇到类似的场景时,便可以采用增量式网络爬虫。 4、深层网络爬虫 Web页面按存在方式可以分为表层网页(Surface Web)和深层网页(Deep Web)。浏览器表层网页主要是指的浏览器直接使用相对静态的搜索引擎的超链接就可以直接访问的静态页面。 (编辑:银川站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |