织梦dedecms/robots.txt /的功能介绍

robots.txt /- 搜索引擎抓取控制文件,robots.txt文件是存放与网站根目录下的一个txt格式的文本文档,叫做robot协议,也可以简单的理解为爬虫协议、蜘蛛协议等,是网站与搜索引擎爬虫之间的一个协议。

robots.txt / 搜索引擎抓取控制文件

robots.txt文件是存放与网站根目录下的一个txt格式的文本文档,叫做robot协议,也可以简单的理解为爬虫协议、蜘蛛协议等,是网站与搜索引擎爬虫之间的一个协议。

协议是什么意思?计议、协商、商议。那搜索引擎爬虫是做什么的?是抓取我们网站内容的。robots文件就好似网站和爬虫之间签订的一份协议,告诉它我网站的内容,哪些你可以抓取收录,哪些你不能碰!

自定义搜索引擎爬虫

User-agent: 表示定义哪个搜索引擎,在robots.txt文件的第一行

User-agent: * 所有蜘蛛

User-agent: Baiduspider,自定义百度蜘蛛

User-agent: Googlebot,自定义谷歌蜘蛛

常见搜索引擎爬虫(蜘蛛)名称:

百度蜘蛛:Baiduspider

谷歌蜘蛛:Googlebot

360蜘蛛:360Spider

搜狗蜘蛛:Sogou News Spider

必应蜘蛛:bingbot

SOSO蜘蛛:Sosospider

这类自定义蜘蛛的写法可参考百度等:https://www.baidu.com/robots.txt

本文来自投稿,不代表联盈网络立场,如若转载,请注明出处:https://www.ylg6878.com/244.html

发表评论

登录后才能评论
在线客服

工作时间:

周一至周五9:00-18:00

客服:点击这里给我发消息

微信客服
微信客服
分享本页
返回顶部