Robots文件是网站和搜索引擎之间的一个协议,搜索引擎在爬取一个网站内容之前都会先检查这个网站的robots文件,然后按照文件中的规定要求来抓取网站内容。
一个网站里边有很多内容,有些内容只是单纯展示给用户看,对搜索引擎并没什么用,如果不屏蔽掉这些页面,不仅会分散网站权重,也会增加搜索引擎抓取难度,导致网站收录排名久久做不上去。因此就需要用到Robots文件,通过Robots书写规则,告诉搜索引擎哪些页面可以抓取,哪些页面不用抓取。
一般来说网站通过robots文件屏蔽的页面类型包括搜索页面、缓存页面、feed页面、隐私页面和图片目录、css目录等。还有一些网站上不参与排名的页面,如:在线留言、联系我们,可以通过robots文件让搜索引擎不抓取这些页面,将网站权重集中在其他重要页面上,网站更容易获取排名。
Robots的概念与写法:
User-agent表示定义哪个搜索引擎,如User-agent:Baiduspider,定义百度蜘蛛。
Disallow表示禁止搜索引擎爬取相应的文件夹、链接。
Allow表示允许搜索引擎抓取对应的目录链接。
通过以上三个命令,可以组合多种写法,允许哪个搜索引擎访问或禁止哪个页面。如:
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片。
robots的文件存放位置:
通常robots文件直接存放于网站ftp后台的根目录路径即可,一般搜索引擎蜘蛛优先发文的也是网站的根目录下的robots。