专注网站优化推广技术
提供网站优化排名服务

Robots.txt协议是什么

Robots.txt协议是什么

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

robots.txt协议是什么

Robots.txt的作用是什么

robots.txt是用来告诉搜索引擎网站上哪些内容可以被访问、哪些不能被访问。当搜索引擎访问一个网站的时候,它首先会检查网站是否存在robots.txt,如果有则会根据文件命令访问有权限的文件。

1、节省流量

2、保护网站安全

3、引导蜘蛛爬网站地图

4、禁止搜索引擎收录部分页面

Robots.txt应该放在网站什么位置

robots.txt文件应该放置在网站根目录下。当Spider访问一个网站时,首先会检查该网站中是否存在robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

Robots.txt协议语法

robots.txt协议语法

1、User-agent 定义搜索引擎。一般情况下,网站里面都是:User-agent: *,这里*的意思是所有,表示定义所有的搜索引擎。比如,我想定义百度,那么就是User-agent: Baiduspider;定义google,User-agent: Googlebot。

2、Disallow 禁止爬取。如,我想禁止爬取我的admin文件夹,那就是Disallow: /admin/。禁止爬取admin文件夹下的login.html,
Disallow: /admin/login.html。

3、Allow 允许。我们都知道,在默认情况下,都是允许的。那为什么还要允许这个语法呢?举个例子:我想禁止admin文件夹下的所有文件,除了.html的网页,那怎么写呢?我们知道可以用Disallow一个一个禁止,但那样太费时间很精力了。这时候运用Allow就解决了复杂的问题,就这样写:

Allow: /admin/.html$
Disallow: /admin/

4、$ 结束符。例:Disallow: .php$ 这句话的意思是,屏蔽所有的以.php结尾的文件,不管前面有多长的URL,如abc/aa/bb//index.php也是屏蔽的。

5、* 通配符符号0或多个任意字符。例:Disallow: *?* 这里的意思是屏蔽所有带“?”文件,也是屏蔽所有的动态URL。

Robots写法注意事项

robots.txt协议应在网站上线前的准备工作做好:在写robots.txt文件时语法一定要用对,User-agent、Disallow、Allow、Sitemap这些词都必须是第一个字母大写,后面的字母小写,而且在:后面必须带一个英文字符下的空格。

robots协议注意事项

赞(0) 打赏
未经允许不得转载:广州SEO » Robots.txt协议是什么
分享到: 更多 (0)

评论 1

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

专注于广州SEO优化推广,提供广州网站SEO优化教程及网站推广服务

SEO成功案例联系SEO顾问

觉得SEO文章有用就打赏一下广州SEO

支付宝扫一扫打赏

微信扫一扫打赏