robots.txt怎么写?(分享robots.txt文件编写规则)

seoxin 11-21 14:31 10次浏览

robots.txt文件编写规则】

不论我们SEO站长用什么建站程序,都应该了解掌握robots文件的编写规则和格式,那么robots文件的格式规则是怎样的呢?

1、User-agent:该项的值用于描述搜索引擎robot的名字。

例子:User-agent:Baiduspider ,指的就是百度搜索引擎蜘蛛。

2、Disallow:该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。

例子1:Disallow: /wp-admin/,指的是不允许访问wp-admin文件夹下面的内容,但是不限制访问wp-admin.php、wp-admin.html文件。例子2:Disallow: /wp-admin,指的是不允许访问wp-admin文件夹下面的内容以及wp-admin.php、wp-admin.html文件。

3、Allow:该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。

例子:Allow: /wp-content/uploads/,指的是允许访问wp-content文件夹下面的uploads文件夹的内容。

4、使用”*”和”$”:Baiduspider支持使用通配符”*”和”$”来模糊匹配url。 “*” 匹配0或多个任意字符 “$” 匹配行结束符。

例子1:User-agent:*,指的是所有搜索引擎蜘蛛(或机器人)。例子2:Disallow: /*.css$,指的是不允许访问任何后缀为.css文件。

5、Sitemap:用来告诉搜索引擎网站地图的位置。

例子:Sitemap: https://你的域名/sitemap.xml,其中sitemap.xml是你的网站的网站地图文件

编写注意事项:

①百度会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写;

②百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。

③一定是英文输入法格式下的“空格”和符号,因为代码是英文格式的

【wordpress的robots怎么写最佳】

1、我们当然希望所有的搜索引擎都来抓取网站。因此,我们可以写

User-agent:*

2、为了避免收录WordPress系统文件,因为系统文件对于用户来说没用处,收录了反而容易被人黑站,因此应该屏蔽了WordPress的后台文件。

Disallow: /wp-admin/Disallow: /wp-includes/Disallow: /wp-content/

3、每个默认的文章页面代码里,都有一段trackback的链接,如果不屏蔽让蜘蛛去捉取,网站会出现重复页面内容问题。

Disallow: /*/trackback

4、头部代码里的feed链接主要是提示浏览器用户可以订阅本站,而一般的站点都有RSS输出和网站地图,故屏蔽搜索引擎捉取这些链接,提高蜘蛛的抓取效率。

Disallow: /feedDisallow: /*/feedDisallow: /comments/feed

5、这个是屏蔽捉取站内搜索结果。站内没出现这些链接不代表站外没有,如果收录了会造成和TAG等页面的内容相近。

Disallow: /*?*Disallow: /?s=*Disallow: /*/?s=*\

6、屏蔽留言链接插件留下的变形留言链接。

Disallow: /?r=*

7、屏蔽捉取留言信息链接。一般不会收录到这样的链接,但为了更好地让蜘蛛高效抓取和工作,也该屏蔽。

Disallow: /*/comment-page-*Disallow: /*?replytocom*

8、网站地图地址指令,主流是txt和xml格式。告诉搜索引擎网站地图地址,方便搜索引擎捉取全站内容。另外要注意Sitemap的S要用大写,地图地址也要用绝对地址。

Sitemap: https://你的域名/sitemap.xml

综上所述,整个robots文件就是:

User-agent:*

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /wp-content/

Disallow: /*/trackback

Disallow: /feed

Disallow: /*/feed

Disallow: /comments/feed

Disallow: /*?*

Disallow: /?s=*

Disallow: /*/?s=*\

Disallow: /?r=*

Disallow: /*/comment-page-*

Disallow: /*?replytocom*

Sitemap: https://你的域名/sitemap.xml

我们就可以利用robtos协议优化wordpress网站的被抓取和收录的速度,根据上面的robots文件内容,按照实际情况增加自己所需要的,希望能够帮助刚接触wordpress建站的站长更快上手。