时间:2020-12-07
目前常用的链接有锚文本链接、超链接、纯文本链接和图像链接。怎样被爬行器爬行是一个自动提取网页的程序,比如百度蜘蛛。为了让你的网站包含更多的网页,你首先让爬虫程序爬行网页。如果你的网站页面定期更新,爬虫会更频繁地访问页面,而优质的内容是爬虫喜欢抓取的,尤其是原创内容。蜘蛛很快就会爬上网站。
一、网站的页面和权重
质量高,资格老的网站被认为权重高,这个网站的页面被爬行的深度也高,所以收录了更多的页面。
二、页面更新度
蜘蛛每次爬行都会把页面数据储存起来。假如第二次爬行发现页面和第一次收录一样,说明页面没有更新,多次爬行后,蜘蛛会对页面更新频率有所了解,不经常更新的页面,蜘蛛也不必经常爬行。如果页面内容经常更新,蜘蛛就会更加频繁的访问这种页面,页面上出现的新连接,也自然会被蜘蛛更快的跟踪,抓取新页面。
三、导入链接
无论是外部链接还是同一个网站的内部链接,要被蜘蛛抓住,必须导入链接进入页面。否则,蜘蛛就没有机会知道页面的存在。高质量的导入链接也经常增加页面上的导出链接的深度爬行。
四、与首页的点击距离
一般而言,网站上权重高的是首页,大多数外链都指向首页,蜘蛛访问多的也是首页。因此,离首页点击距离越近,页面权重就越高,蜘蛛爬行的机会也越大。
五、URL结构
网页权重是在收录和迭代计算之后才知道的,那么前面提到的网页权重高有利于被抓取,搜索引擎蜘蛛在抓取之前如何知道网页权重?所以蜘蛛要进行预判,除了链接,与首页距离、历史数据等因素外,短的、层次浅的URL也可能被直观的认为在网站上的权重相对较高。
tyc1286太阳集团(中国)-最新APP下载 版权所有冀ICP备18020206号