robots.txt文件是一个存放在网站根目录里面的文本文件,该文件是用来正确引导搜索引擎抓取和收录页面的,用来告诉搜索引擎哪些页面可以收录而哪些不可以,所以正确编写robots.txt文件很重要 .
文件头部规则:
robots.txt文件的开头为User-agent:开头,用来指定搜索引擎蜘蛛,如果要针对百度搜索蜘蛛,可以输入
User-agent:Baiduspider
如果要对全体搜索引擎起作用,则输入
User-agent: *
Disallow规则:
Disallow: /abc 表示禁止访问收录abc.php、abc.html和abc文件夹下的所有文件。
Disallow: /abc/ 表示仅禁止访问abc文件夹下的所有文件,但是不限制abc.php、abc.html文件。
Allow规则:
Allow规则同Disallow。
Sitemap规则:
Sitemap用来告诉搜索引擎网站地图的位置
Sitemap: http://你的域名/sitemap.xml
其中sitemap.xml是你的网站的网站地图文件。
为了避免收录WordPress系统文件:
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
为了避免收录重复的内容:
Disallow: /feed
Disallow: /articles/*/feed
总结全部的robots.txt全文如下:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /feed
Disallow: /articles/*/feed
Sitemap: http://你的域名/sitemap.xml
备注:将以上的代码放在以robots.txt命名的文本文件中,上传到网站的根目录即可!