总结站长在robots.txt文件中常犯几个的错误

2019-03-20 11:48:44 5
  

    Robots文件看起来很简单,只有几行字符,但是作为搜索引擎(Engine)进入我们站点后第一个访问的对象,其扮演的角色确是至关重要的。网站关键词排名是一种在搜索引擎搜索结果中以相关字、词、词组体现网页排名的方式。可以分为关键词自然排名以及各搜索引擎提供的关键词竞价排名服务两种这几行字符中蕴含着非常多的小细节。如果我们忽视这些小细节的话,robots文件不仅不能成为站点发展的踏脚石,更将可能(maybe)成为影响(influence)站点发展的绊脚石,可以不客气的说一着不慎,经可能满盘皆输。下面笔者将在下文中根据三个案例(àn lì)分析(Analyse)我们写robots时因为不注重细节而引发的不可承受的 ;痛 ;。
    问题一:语句的先后顺序颠倒
    我们先来分析(Analyse)一段虽然很简单,但是被一般应用的语句:
    User-agent: *
    Allow: /
    Disallow: /1234/
    从这三段robots语句中我们不能看出这原本的书写目的是要让搜索引擎(Engine)不要爬行1234目录下面的页面,而其他的页面则没有限制(limit)。网站关键词排名是指通过各种搜索引擎优化(seo)方式,使您网站的关键词在再搜索引擎自然排名中靠前。用户通过搜索引擎搜索相关的关键词,如电动车、珍珠、pearl等,左侧自然排名中排首页的全球最多仅10个网站,而这些排位是根据网站相关性和重要性等参数来排序的,非常公正。那是金钱买不来的,你的排名高,意味着你在行业的影响力远远超过同行。而事实(Fact)上这段语句的执行效果与我们的目的是背道而驰的,为什么呢分析后你会发现搜索引擎蜘蛛对于robots文件的读取顺序是从上到下的,如果你这么写的话这将会造成屏蔽语句失去原有的效力,修改的方法是将两者乾坤大挪移,将Disallow: /1234/与Allow: /位置(position )对调就能实现我么想要的效果
    问题二:屏蔽站点的某一个页面时,漏掉斜杠 ;/ ;
    我们也常常使用robots屏蔽某一个敏感的不想搜索引擎(Engine)爬行的页面,而在这条语句上我们也有非常多细节想要注意(attention),举个例子,假如加入我们想要屏蔽为于根目录下的登陆页面login.asp这一页面,有的站长(webmaster)可能(maybe)会这么写:Disallow: login.asp,这乍一看没什么问题(Emerson),但是笔者想要问一下你想要屏蔽的这个页面是位于什么目录的?是根目录或者是一级二级目录的?如果我们忽略前面的斜杠,搜索引擎蜘蛛(baiduspider)没有办法知道该页面在哪里。修改的方法是:Disallow: /login.asp,这样才能真正的屏蔽位于根目录下面的login.asp这一登陆页面。
    问题(Emerson)三:屏蔽站点的整个目录后,漏掉斜杠 ;/ ;
    除了屏蔽单个页面,我想大多数站长(webmaster)更常使用的是屏蔽整个目录。网站关键词排名是一种在搜索引擎搜索结果中以相关字、词、词组体现网页排名的方式。可以分为关键词自然排名以及各搜索引擎提供的关键词竞价排名服务两种同样举个案例(àn lì),比如我们想屏蔽站点的某一个目录,如/seo(搜索引擎优化)(搜索引擎优化)/这一目录下面的页面,有的人可能(maybe)会这样写Disallow: /seo。这样写是否正确呢?这样写不进有错,而且错很大,造成的危害也很大。我们这样虽然可以屏蔽掉/seo/这一目录下面的所有想干页面。但是也会曲折到其他不相关的页面,这也将屏蔽开头为/seo的所有页面。其发挥(表现出内在的能力)的作用就如同是Disallow: /seo*。修改的方法很简单,即在我们需要屏蔽的目录名称后不要漏了斜杠,如Disallow: /seo/。
    Robots文件可以保护我们的站点的一些文件不被搜索引擎抓取,同时也可以提升搜搜引擎的抓取效率。但是如果我们不注意(attention)细节的话,不仅得不到效果,还往往会适得其反。希望本文对于大家在写robots文件时有所帮助。
电话咨询
邮件咨询
在线地图
QQ客服