Robots基础知识_创建robots.txt需要注意的几点!

  • A+
所属分类:深圳SEO优化

一:robots基础知识

robots协议(也称爬虫协议、机器人协议等),“全称是网络爬虫排除标准“(Robots Exclusion Protocol),网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。

Robot.txt的作用?

可以让蜘蛛更高效的爬行网站

可以阻止蜘蛛爬行动态页面,从而解决重复收录的问题

可以减少蜘蛛爬行无效页面,节省服务器带宽

可以屏蔽搜索引擎屏蔽一些隐私页面或者临时页面

Robots基础知识_创建robots.txt需要注意的几点!

 

如何创建robots.txt文件呢?

右击桌面——新建文本文档——重命名为robots.txt(所有文件必须小写)——编写规则——用FTP把文件上(放到根目录下)传到空间

创建robots.txt需要注意的知识点:

1、必须是txt结尾的纯文本文件

2、文件名所有字母必须是小写

3、文件必须要放在根目录下

4、文件内的冒号必须是英文半角状态下

 

二:robots参数讲解

User-agent

主要作用:用于描述搜索引擎蜘蛛的名字

举列:

1、描述所有蜘蛛

User-agent:*

2、描述百度蜘蛛

User-agent:BaiduSpider

百度:BaiduSpider

谷歌:Googlebot

搜狗:Sogou web spider

好搜:360Spider

MSN:MSNBot

有道:YoudaoBot

宜搜:EasouSpider

User-agent技巧:

1、当robots.txt不为空的时候,必须至少有一条User-adent记录

2、相同的名字,只能有一条(例如User-agent:*),但是不同蜘蛛,可以有多条记录(例如:User-agent:Baiduspider和User-agent:Googlebot)。

Disallow

主要作用:用于描述不允许搜索引擎爬行和抓取的URL。

使用技巧:

1、在robots.txt中至少要有一条Disallow

2、Disallow记录为空,则表示网站所有页面都允许被抓取。

3、使用Disallow,每个目录必须单独分开声明

4、注意Disallow:/abc/(abc目录底下的目录不允许抓取,但是目录底下的html允许抓取)和Disallow:/abc(abc目录底下的目录跟html都不允许被抓取)的区别

 

 

 

  • 站长微信
  • 想学习SEO的朋友扫一扫微信
  • weinxin
  • 站长QQ
  • 扫一扫加站长QQ
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: