问题
-
网络爬虫除了可以采集信息 甚至可以植入流氓软件 破坏网页内容甚至劫持网站和服务器。()
-
()是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫 它能够在一定程度上保证所爬行的页面是尽可能新的页面。
-
按照()爬取的网页内容根据目录层次深浅来爬行页面 处于较浅目录层次的页面首先被爬行 当同一层次中的页面爬行完毕后 爬虫再深入下一层继续爬行。
-
增量式爬虫中的()指的是:爬虫根据网页改变频率将其分为更新较快网页子集和更新较慢网页子集两类 然后以不同的频率访问这两类网页。
-
聚焦网络爬虫和通用网络爬虫相比 增加了链接评价模块以及内容评价模块。()
-
增量式爬虫中的()指的是:爬虫以相同的频率访问所有网页 不考虑网页的改变频率。