刘连康:网站robots.txt文件怎么写?

刘连康 网络随笔评论2,540字数 4003阅读13分20秒阅读模式

网站robots.txt文件对于SEO来说是非常重要的,如果你参加过正规的SEO培训,你就会知道,当搜索引擎蜘蛛第一次来访问你网站时,它首先要做的第一件事情就是要看看你网站根目录里面有没有robots.txt文件。

 

如果你的网站有robots.txt文件,那么搜索引擎蜘蛛就会按照robots.txt文件里面的协议进行工作;如果你的网站没有robots.txt文件,那么搜索引擎蜘蛛就会随意的抓取你网站内容。

 

有很多SEOer工作了好些年,至今连网站robots.txt文件都还不会写,这些人也真的是大有人在。

 

也有做事情比较粗心大意的SEOer,他们在建设网站之前,总是喜欢在robots.txt文件写着禁止任何搜索引擎蜘蛛访问的命令,然后等网站建设好之后,往往会忘记解禁,导致网站迟迟不见收录。找遍了所有会出现问题的地方,可就是不知道问题到底出现在哪里。

 

当然,我们做网站SEO,其目的就是需要让搜索引擎收录,这样才能更好地增加网站的访问量。

 

但是也有个别行业的网站,比方说:安全性要求较高银行和企业的内部管理系统等等,他们这种网站的安全性和私密性会比较高,肯定是不希望把数据随意的暴露出来。

 

不管是什么样的需求,我们都需要正确的书写网站robots.txt文件。今天康哥就来给大家分享一下网站robots.txt文件到底该怎么写?有哪些需要注意的地方?

 

1、如果我们想让所有搜索引擎访问我们网站的所有内容,那么我们就可以建立一个空白的文本文档,命名为robots.txt放在网站的根目录下就可以了,robots.txt写法如下:

User-agent: *

Disallow:

或者是

User-agent: *

Allow: /

 

2、如果我们禁止所有搜索引擎访问网站的所有内容,那么网站robots.txt就可以这样写:

User-agent: *

Disallow: /

 

3、如果我们需要禁止某一个搜索引擎来抓取我们的网站,比如百度搜索引擎,网站robots.txt就可以这样写:

User-agent: Baiduspider

Disallow: /

 

4、如果我们想要禁止谷歌抓取我们的网站,其实也跟刚才一样,我们只需要把User-agent:头文件的蜘蛛名字改成谷歌的Googlebot 即可,robots.txt写法如下:

User-agent: Googlebot

Disallow: /

 

5、如果我们想要禁止除了谷歌以外,不想让其他搜索引擎来抓取我们的网站,那么我们的网站robots.txt就可以这样写:

User-agent: Googlebot

Disallow:

User-agent: *

Disallow: /

 

6、如果我们想要禁止除了百度以外,不想让其他搜索引擎抓取我们的网站,robots.txt就可以这样写:

User-agent: Baiduspider

Disallow:

User-agent: *

Disallow: /

 

7、如果我们需要禁止任何搜索引擎蜘蛛访问某个目录,比方说,我们想要禁止搜索引擎蜘蛛抓取admin、css、images等目录,robots.txt就可以这样写:

User-agent: *

Disallow: /css/

Disallow: /admin/

Disallow: /images/

 

8、如果我们允许搜索引擎蜘蛛访问我们网站的某个目录中的某些特定网址,robots.txt可以这样来写:

User-agent: *

Allow: /css/my

Allow: /admin/html

Allow: /images/index

Disallow: /css/

Disallow: /admin/

Disallow: /images/

 

9、我们在做SEO优化时,会常常去浏览别人做得比较优秀的网站,取长补短。当你看到某些网站robots.txt文件里的Disallow或者是Allow里会出现有很多的符号,比如:问号或者是星号什么的。

 

你不要觉得奇怪,其实这也是网站robots.txt文件的一种写法,并没有什么错误之处。

 

如果使用“*”,主要是限制访问某个后缀的域名。

 

废话不多说,我们还是直接上干货吧。如果我们想要禁止任何搜索引擎蜘蛛访问网站/html/目录下的所有以".htm"为后缀的URL(当然也包含了子目录)。 robots.txt可以这样写:

User-agent: *

Disallow: /html/*.htm

 

10、如果我们看到一些网站robots.txt文件使用了“$”,那么他们所表达的意思就是仅仅允许搜索引擎蜘蛛访问某个目录下某个后缀的文件。

robots.txt需要这样写:

User-agent: *

Allow: .asp$

Disallow: /

 

11、如果我们想要禁止搜索引擎蜘蛛访问网站中所有的动态页面(也就是带有“?”的URL,例如index.asp?id=1)robots.txt写法如下:

User-agent: * Disallow: /*?*

 

当你SEO优化过很多网站,SEO实战经验非常丰富时,尤其是优化那些大型网站,搜索引擎蜘蛛来访问很频繁的那种,你就会发现我们的服务器每天都必须要承受着非常大的压力。

 

所以,这时候我们为了节省服务器资源,需要禁止各类搜索引擎来抓取我们网站上的图片,这里的办法除了使用“Disallow: /images/”这样的直接屏蔽文件夹的方式之外,我们还可以采取直接屏蔽图片后缀名的方式。

 

12、如果我们禁止谷歌搜索引擎蜘蛛抓取我们网站上的所有图片(注意:如果你的网站使用了其他后缀的图片名称,在这里也可以直接添加) robots.txt写法如下:

User-agent: Googlebot

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

 

13、如果我们禁止百度搜索引擎蜘蛛抓取我们网站上的所有图片,robots.txt可以这样写:

User-agent: Baiduspider

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

 

14、除了百度搜索引擎蜘蛛和谷歌搜索引擎蜘蛛之外,你想要禁止其他搜索引擎蜘蛛抓取你网站的图片(注意:在这里为了让大家能够看的更明白,我们就使用一个比较笨的办法,对于单个搜索引擎单独定义。) robots.txt写法如下:

User-agent: Baiduspider

Allow: .jpeg$

Allow: .gif$

Allow: .png$

Allow: .bmp$

User-agent: Googlebot

Allow: .jpeg$

Allow: .gif$

Allow: .png$

Allow: .bmp$

User-agent: *

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

 

15、我们只允许百度搜索引擎蜘蛛抓取网站上的“jpg”格式文件,仅仅需要修改一下搜索引擎的蜘蛛名称就可以了。

网站robots.txt文件可以这样写:

User-agent: Baiduspider

Allow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

 

16、我们想要单独禁止百度搜索引擎蜘蛛抓取网站上的“jpg”格式文件,robots.txt可以这样写:

User-agent: Baiduspider

Disallow: .jpg$

 

17、如果?表示一个会话ID,那么我们就可以排除所有包含该ID的网址,确保谷歌搜索引擎蜘蛛不会抓取重复的网页。

但是,以?结尾的网址可能是你网站要包含的网页版本。

在这种情况下,我们就可以与Allow指令配合使用。 robots.txt写法如下:

User-agent:*

Allow:/*?$

Disallow:/*?

 

在这里我们就可以看到,Disallow:/ *?这一行命令将会拦截包含?的网址。说具体点,它将会拦截所有以你网站的域名开头、后接任意字符串,然后是问号(?),而后又是任意字符串的网址。

 

那么呢,这个Allow: /*?$这一行命令将会允许包含任何以?结尾的网址。也就是说,它将允许包含所有以你网站的域名开头、后接任意字符串,然后是问号(?),问号之后没有任何字符的网址。

 

18、如果我们想要禁止搜索引擎蜘蛛对一些目录或者是某些URL的访问,我们就可以截取URL部分的名字。

robots.txt可以这样写:

User-agent:*

Disallow: /plus/feedback.php?

 

网站robots.txt文件的写法康哥已经给你们分享的非常详细了,不管是什么样的网站,以上这18种robots.txt文件写法,总有一个适合你。

 

但是康哥想要提醒一下大家,其实robots.txt文件并不需要写的太复杂,只需要把不需要参与SEO排名的一些乱七八糟的东西给禁止掉就行了,比方说:网站里面的css、js、网站安装路径和网站后台路径等等。

 

对了,文章开头康哥就已经给你们讲过:当搜索引擎蜘蛛第一次来访问你网站时,它首先要做的第一件事情就是要看看你网站根目录里面有没有robots.txt文件。

 

既然搜索引擎蜘蛛第一个要访问的是我们网站里面的robots.txt文件,那么我们这时候就可以将网站地图链接地址放在这个robots.txt文件里面。

 

比方说,我们可以这样写:Sitemap: http://www.liuliankang.com/sitemap.xml

 

如此一来,我们网站很多内页URL就可以快速被搜索引擎蜘蛛发现和抓取到了。

本文为原创文章,版权归作者所有,欢迎转载,转载请注明作者和出处,谢谢!

作者:刘连康

首发:刘连康博客

  • 我的微信
  • 这是我的微信扫一扫
  • weinxin
  • 我的微信公众号
  • 我的微信公众号扫一扫
  • weinxin
刘连康
  • 本文由 发表于 2020年11月6日 17:38:17
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定