精彩专题推荐:建站之入门课 建站之必修课 建站之关键课 网站价值所在 流量提高专题 css+div 标准 个人网站打造全过程
返回建站学首页
导航:
建站首页 | 网站设计 | 网站开发 | 网站运营 | 网页软件 | 建站指南 | 搜索优化 | 图像处理 | 视频教程 | 书籍教程 | 建站专题
当前位置:首页>搜索优化>搜索基础>正文

robots.txt和Robots META标签


来源:天极网 时间:07-03-05 点击: 点击这里收藏本文
  3、 常见搜索引擎机器人Robots名字

  名称 搜索引擎

  Baiduspiderhttp://www.baidu.com

  Scooterhttp://www.altavista.com

  ia_archiverhttp://www.alexa.com

  Googlebothttp://www.google.com

  FAST-WebCrawlerhttp://www.alltheweb.com

  Slurphttp://www.inktomi.com

  MSNBOThttp://search.msn.com

  4、 robots.txt举例

  下面是一些著名站点的robots.txt:

  http://www.cnn.com/robots.txt

  http://www.google.com/robots.txt

  http://www.ibm.com/robots.txt

  http://www.sun.com/robots.txt

  http://www.eachnet.com/robots.txt

  5、 常见robots.txt错误

  l 颠倒了顺序:

  错误写成

  User-agent: *

  Disallow: GoogleBot

  正确的应该是:

  User-agent: GoogleBot

  Disallow: *

  l 把多个禁止命令放在一行中:

  例如,错误地写成

  Disallow: /css/ /cgi-bin/ /images/

  正确的应该是

  Disallow: /css/

  Disallow: /cgi-bin/

  Disallow: /images/

  l 行前有大量空格

  例如写成

  Disallow: /cgi-bin/

  尽管在标准没有谈到这个,但是这种方式很容易出问题。

  l 404重定向到另外一个页面:

  当Robot访问很多没有设置robots.txt文件的站点时,会被自动404重定向到另外一个Html页面。这时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt文件在站点根目录下。

  l 采用大写。例如

  USER-AGENT: EXCITE

  DISALLOW:

  虽然标准是没有大小写的,但是目录和文件名应该小写:

  user-agent:GoogleBot

  disallow:

  l 语法中只有Disallow,没有Allow!

  错误的写法是:

  User-agent: Baiduspider

  Disallow: /john/

  allow: /jane/

  l 忘记了斜杠/

  错误的写做:

  User-agent: Baiduspider

  Disallow: css

  正确的应该是

  User-agent: Baiduspider

  Disallow: /css/

  下面一个小工具专门检查robots.txt文件的有效性:

  http://www.searchengineworld.com/cgi-bin/robotcheck.cgi

9 7 3 1 2 3 4 8 :

  把此文章收藏到:          
广而告之
文章搜索
  • Google JZxue.Com

关于我们 | 联系我们 | 友情链接 | 网站地图
Copyright © 2005 - 2006 建站学 All rights reserved.