搜索引擎每次访问你的站点时会最先访问网站根目录下的robots.txt文件来获取信息,看看那些目录可以访问,那些目录禁止访问。并且一个好的robots.txt可以提高网站在搜索引擎中的排名。对与wordpress来说,最好把wordpress固定连接方式修改一下,因为?p的格式对搜索引擎并不友好。查看wordpress修改固定链接方法
下面是我的wordpress站点使用的robots.txt文件
User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /feed/
Disallow: /category/*/*
Disallow: /page/*
Disallow: /comments/feed
Disallow: */trackback
Disallow: /*?*
Disallow: /*?
Sitemap: http://www.duoluodeyu.com/sitemap.xml
通过以上robots.txt控制,可以禁止搜索引擎收录后台管理页面、插件、和主题页面。同时也可以禁止搜索引擎收录类似与/category/it/page/5和page/4之类的页面,是搜索引擎收录结果清晰,使每一位访客搜索到的结果尽量是文章内容页。
以上代码主要针对我的站点来说的,如果你想写一个更符合你的站点的robots.txt请参考一下robots.txt撰写资料:
URL规则:

另外,为了避免以外,在你添加新的或者修改robots.txt后最好使用google网站管理员工具https://www.google.com/webmasters/tools/home?hl=zh-cn中网站设置-抓取工具的权限 工具来测试自己的robots.txt是否有效,是否合适。具体查看:测试robots.txt