robots.txt的作用和写法

SEO基础知识 杭州seo 801 0评论

robots.txt有引导搜索引擎蜘蛛抓取网站栏目和内容的作用,我们有必要了解robots.txt的写法。

什么是robots.txt?

robots.txt是一种存放于网站根目录下的文本文件,它通常告诉搜索引擎抓取程序(又称网络蜘蛛/爬虫),告诉网站中的那些内容是不应该被搜索引擎抓取程序获取的,哪些是可以被抓取程序获取的。当蜘蛛访问我们网站的时候会先查找网站是否有robots.txt这个文件,存在的话,会按照内容访问,不存在的话,会根据链接一个一个访问。

robots.txt的作用

引导搜索引擎蜘蛛抓取置顶栏目或内容
网站改版或者URL重写优化时屏蔽不友好链接
屏蔽死链接,404错误页面
屏蔽无内容,无价值页面
屏蔽重复页面,如评论业,搜索结果页
屏蔽任何不想被收录的页面
引导蜘蛛抓取网站地图

robots.txt的语法-3个语法|2个通配符

1.User-agent:(定义搜索引擎)
user-agent:*(定义所有搜索引擎都能爬取)
User-agent:Baiduspoder(定义百度,只允许百度蜘蛛爬取)
不同的搜索引擎的搜索机器人有不同的名称,百度:Baiduspider、谷歌:Giiglebot、好搜:360spider

2.Disallow:(用来定义禁止蜘蛛爬取的页面货目录)
Disallow:/(禁止蜘蛛爬取网站的所有目录 “/“表示根目录下)
Disallow:/admin(禁止蜘蛛爬取admin目录)
Disallow:/abc.html(禁止蜘蛛爬取abc.html页面)

3.Allow:(用来定义允许蜘蛛爬取的页面或子目录)
Allow:/admin/test(允许蜘蛛爬取admin下的test目录)
Allow:/admin/abc.html(允许蜘蛛爬取admin目录总的abc.html)

匹配符“$”(匹配URL结尾的字符)
User-agent:*
Disallow:/abc/*.htm$
Disallow:/*.jpg$

通配符“*”(匹配0个或多个任意字符)
User-agent:*
Disallow:/*?*
Disallow:/*.png$

百度蜘蛛

杭州seo>robots.txt的作用和写法,版权所有,转载请写明出处。

喜欢 0 or分享

发表评论

()个小伙伴在吐槽
  1. 还没有任何评论,你来说两句吧