功能测试
首页 > 网站优化 > 正文

搜索引擎抓取网页内容的规律

发布-grape | 查看- | 发表时间-2009-10-24

      搜索引擎要知道网上的新生事物,就得派人出去搜集,我们提到yahoo在创办的初期,许多编辑天天泡在网上,访问新鲜网站然后将搜集来的信息整理程序,当时网站的数量很少,做起来比较容易。现在新网站出现的数量老网的更新都是爆炸式的,靠人工是不可能完成的任务。所以搜索引擎的发明就设计了计算机程序,派他们来执行这个任务。

      而现在我们称探测器,,这个搜集的人就是探测器,也叫crawler爬行器、spider蜘蛛、robot机器人。这些形象有叫法是描绘搜索引擎派出的蜘蛛机器人爬行在互联网上探测新的信息。google把它的探测器叫做googlebot,百度叫baiduspider。MSN称MSNbot,yahoo称slurp。这个探测器实际上是人们编制的计算机程序,由它不分昼夜地进入访问各个网站,取回网站内容、标签、图片等,然后依照搜索引擎的算法给它们制定成索引。所以,这可不是“爬行”而是以光速来访问的。一个搜索引擎会同时派出很多探测器。这些“机器人”或者从站主直接呈递的URL去访问。或者由一个网络用户所装的搜索引擎工具栏得知用户去的网站,或者从一个网站中指向另一个网站的链接过去。探测器不一定是从网站的首页进入访问。所以,如果你要探测器访问你的其他网站,那么这个进入页就需要和其他网站网页相连接,达到这个目的最容易的办法就是每个页面都加一个指向首页的链接。

但是,探测器对许多网站是不能完整取回信息的,这个大多数是由于网站的设计没有按照搜索引擎探测器的思路来进行优化。比如,如果一个网页比较大,探测器也只能截取网页的首部,而且只能跟着少量的链接走。google目前能够吸收100KB的文件,yahoo会多一点。这个可以通过实验来检验。将一个搜索关键词放在一个很长的网页最后部分,然后看google的缓存中显现网页的大小是多少。如果不出意料,google的cache说这个网页只有10KB。很显然,一部分内容没有被google抓走。

综合大多数人的经验,网站被其它网站收录的机会远大与被百度收录。为什么被百度收录这么困难呢,这有多方面的原因。如关键字的问题。很多建站都没有注意关键字的重要性,如果没有关键字、词,爬行器来过,根本不知道你这个网站的主旨是什么,当然会pass掉;但这并不意味着关键字词一大篇,只要是能表达网站的关键信息就行,大众化一点,差不多四五个关键字就可能了。再是内容不能太大了;一个网站如果什么东西都放,太杂乱。

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

联系济宁网站建设
电话:
0537-3150090
15264799833
QQ:37188428
地址:济宁市置城国际中心

最新文章
文章页自定义模板在主题的INCLUDE目录下的ARTICLE_SELF_MOUDLE.ASP
最近评论
访客留言
Copyright www.seo-k.cn 鲁ICP备09040439号 | DESIGN BY 零点