正在载入...


我的robots.txt

http://wentong.org/robots.txt(最新的修改需点击查看)

User-agent: Mediapartners-Google
Allow: /
User-agent: *
Disallow: /wp-
Allow: /wp-content/uploads/
Disallow: /?
Disallow: /feed
Disallow: /*/feed
Disallow: /trackback
Disallow: /*/trackback
Disallow: /index.php?
Disallow: /index.php/
Disallow: /*.php$
Disallow: /*.css$
Disallow: /*.js$
Disallow: /date/
Disallow: /page/
Disallow: /out/
Sitemap: http://wentong.org/sitemap.xml
Sitemap: http://wentong.org/sitemap_baidu.xml


robots.txt知识介绍

robots.txt知识介绍
robots.txt是搜索引擎的蜘蛛程序中访问网站要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的和收录的。
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
通过给网站设置适当的robots.txt对Google和百度收录的优化能起到一定的作用的。


WordPress博客robots.txt解释

•User-agent: Mediapartners-Google 表示对Mediapartners-Google(google的adsense搜索引擎)搜索引擎采用一下规则
•Allow: /
•User-agent: * 表示对所有的搜索引擎都采用下面的规则;
•Disallow: /wp- 不允许Google/百度spider抓取和索引wp-开头的文件及目录,如wp-login.php文件以及wp-admin目录等均被阻止;
•Allow: /wp-content/uploads/ 因为在上一条将wp-content目录屏蔽了,这样Google图片搜索和百度就无法访问放在/wp-content/uploads/目录下的图片,为了能使Google图片搜索收录图片等附件,将这个目录设置为Allow;
•Disallow: /? 禁止Google/baidu搜索引擎spider索引以?开头的网址,如单独文章页面的动态网址http://wentong.org/?p=1。这一条比较厉害,包括了WordPress博客的大部分动态网址。
•Disallow: /feed 禁止Google,百度搜索引擎索引feed博客页面。博客都有一个订阅整站的feed,每个文章分类,每篇文章也分别有一个feed,feed页面和网站页面内容基本相同,如果feed页面没有被禁止访问,可想而知,这将会产生大量的重复页面。有博友反映将feed Disallow以后,从百度搜索引擎来的流量上升非常明显。这里请注意Disallow: /feed和最后加了反斜杠的Disallow: /feed/ 是完全不一样的。Disallow: /feed可以禁止的url包括:wentong.org/feed,wentong.org/feed.html,wentong.org/feed/abc这三种形式,而Disallow: /feed/只能禁止搜索引擎访问wentong.org/feed/abc这种目录形式,所以我们应该用Disallow: /feed。
•Disallow: /*/feed 这条规则禁止Google/baidu等搜索引擎访问文章分类和单独文章文章页面的feed。如本文的http://wentong.org/835/feed。注意这项根据每个博客固定链接结构的不同要采取不同的设置,如wentong.org/post/1/feed,规则要改成Disallow: /*/*/feed
•后面两条trackback和feed一样。
•Disallow: /index.php? 这条规则是为了防止搜索引擎收录wentong.org/index.php?这种url产生的动态网址
•Disallow: /index.php/ 这条规则是为了防止搜索引擎收录wentong.org/index.php/这种url下的所有目录
•Disallow: /*.php$ 这条规则是为了禁止搜索引擎访问和收录.php后缀结尾的url,包括wentong.org/index.php,有效防止了首页权重被分散。
•Disallow: /*.css$ 禁止搜索引擎访问css文件。
•Disallow: /date/ 禁止搜索引擎访问日期存档页面
•Disallow: /page/ 禁止搜索引擎访问博客文章翻页页面,这里设置后好处是减少了重复页面,坏处是Google和baidu的spider无法检索到老文章,因此这里要和网站地图Sitemap.xml配合使用
•Disallow: /out/禁止访问out目录(这是针对本站的情况,不是wordpress通用的)
•Sitemap: http://wentong.org/sitemap.xml 定义google的sitemap地址
•Sitemap: http://wentong.org/sitemap_baidu.xml 定义baidu的sitemap地址

本文链接:

关键词:baidu, google, robots, WordPress, 搜索引擎,

(全文完        )

Comments

2 条评论(网友评论:2 条,博主回复:0 条)快速评论

  1. 我上传上去后无法访问是怎么回事?

    • 鱼此鱼已

      看了一下你的robots.txt。反馈这个信息:# This is your robots.txt file. Visit Options->Robots.txt to change this text.
      有可能你装了一个什么插件,比如all seo in one之类的。因为我不用这些插件,无法给你具体的解决方法。

你需要 登录 才可以回复.