问题
-
()是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫 它能够在一定程度上保证所爬行的页面是尽可能新的页面。
-
增量式爬虫不需要评价网页内容的重要性。()
-
按照()爬取的网页内容根据目录层次深浅来爬行页面 处于较浅目录层次的页面首先被爬行 当同一层次中的页面爬行完毕后 爬虫再深入下一层继续爬行。
-
深层网络爬虫的基于网页结构分析的表单填写法一般将网页表单表示成() 从中提取表单各字段值。
-
()的爬虫针对的是网页上的数据 所抓取的数据一般要符合一定的模式 或者可以转化或映射为目标数据模式。
-
增量式爬虫中的()指的是:爬虫以相同的频率访问所有网页 不考虑网页的改变频率。