爬行和抓取
爬行和抓取是百度搜索引擎工作中的第一步,进行数据采集每日任务。
1、蜘蛛:
百度搜索引擎用于爬行和页面访问的程序流程被称作蜘蛛(spider),也称之为智能机器人(bot)。
2、追踪连接:
以便抓取在网上尽可能多的网页页面,百度搜索引擎蜘蛛会追踪网页页面上的连接,从一个网页页面爬上去下一个网页页面,就仿佛蜘蛛在蛛网上爬行那般,这都是百度搜索引擎蜘蛛这一名字的来历。
3、吸引住蜘蛛:
基础理论上蜘蛛能爬行和抓取全部网页页面,可事实上不可以,也不容易那么做。SEO工作人员愿意让自身的大量网页页面被百度收录,还要想尽办法吸引住蜘蛛抓取。
4、地址库:
为了防止反复爬行和抓取网站地址,百度搜索引擎会创建一个地址库,纪录早已被发觉还没抓取的网页页面,及其早已被抓取的网页页面。
5、文档存款:
百度搜索引擎蜘蛛抓取的统计数据存到初始网页页面数据库查询。别的的网页页面统计数据与客户电脑浏览器获得的HTML是彻底一样的。每一URL全是那样一个与众不同的文件编号。