网站为何要设置robots协议?有哪些好处?

首先要了解概念。何为robots,robots.txt是一个纯文本文件,用于声明该网站中不想被蜘蛛访问的部分,或者指定蜘蛛抓取的部分。简而言之,robots.txt不是规定,而是一种约定,需要蜘蛛自觉遵守的一种习俗。robots协议

当蜘蛛访问一个站点时,它会首先检查该站点是否存在robots.txt。如果找到,蜘蛛就会按照该文件中的内容来确定抓取的范围,如果该文件不存在,那么蜘蛛就沿着链接直接抓取。
robots.txt的存在路径:放置在一个站点的根目录下,而且文件名必须全部小写。
robots的常见语法:User-agent:*

是针对哪个搜索引擎蜘蛛。这里的*代表搜索引擎,*是通配符。

Allow

定义的是允许蜘蛛抓取某个栏目或文件

Allow:/cgi-bin/

这里定义的是允许访问cgi-bin目录

Allow:/* .htm$

允许访问以“.htm”为后缀的URL,$指的是匹配行结束符,*指的是匹配任何字符。

Disallow定义的是禁止蜘蛛抓取某个栏目或文件

Disallow:/admin/

这里定义是禁止抓取admin目录

Disallow:/cgi-bin/*.htm

禁止抓取/cgi-bin/目录下的所有以“.htm”为后缀的URL

Disallow:/*?*

禁止抓取网站中所有包含问号“?”的网址

robots.txt的用法sitemap:http://www.google.com/sitemap.xml

sitemap:URL全称(包含http://部分)

是告诉搜索引擎蜘蛛这个页面是网站地图。

补充:robots.txt不能删除搜索引擎中已收录的页面,但robots meta标签可以解决这个问题。

robots.txt文件主要是限制整个站点或者目录的蜘蛛访问情况,而robots meta标签主要是针对某个具体的页面。

如:<meta name=“robots”content=“index,follow”>

robots meta标签语法

name=“robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=“Baiduspider”

content部分有四个指令,以英文逗号隔开

index指令告诉蜘蛛可以抓取该页面

follow指令表示蜘蛛可以爬行该页面上的链接

共有四种组合:

<meta name=“robots”content=“index,follow”>

<meta name=“robots”content=“noindex,follow”>

<meta name=“robots”content=“index,nofollow”>

<meta name=“robots”content=“noindex,nofollow”>

特殊写法:

<meta name=“robots”content=“index,follow”>可以写成<meta name=“robots”content=“all”>

<meta name=“robots”content=“noindex,nofollow”>可以写成<meta name=“robots”content=“none”>

网站地图的制作,在织梦后台可以生成。另外还可以用到老虎地图工具,用工具去生成。方法可以在工具介绍里查询。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: