400-650-7353
您所在的位置:首页 > IT干货资料 > 网络营销 > 【互联网营销基础知识】网站Robots.txt的最新写法是什么?

【互联网营销基础知识】网站Robots.txt的最新写法是什么?

  • 发布: 互联网营销培训
  • 来源:互联网营销培训干货资料
  • 2020-04-03 18:34:58
  • 阅读()
  • 分享
  • 手机端入口

平时在浏览百度的时候很少发现有今日头条的内容信息,淘宝的产品信息,阿里大鱼自媒体信息。为什么呢?原因就是因为这些网站都对百度搜索引擎设置了Robots协议,禁止让百度搜索引擎抓取,通过接下来的阅读,让你快速完成以下三个目标。第一个:对Robots协议有一定的了解;第二个:可以很好的读懂淘宝Robots红色标注协议的意思;第三个:能够看懂淘宝对待googlebot(谷歌机器人)和baiduspider(百度蜘蛛)有什么不同

本节内容通过以下六个点来讲解:

1. Robots定义

2. 为什么要研究Robots

3. Robots常用语法

4. 个别Robots指令示例

5. Robots在工作中常见应用场景

6. Robots怎么做

【互联网营销基础知识】网站Robots.txt的最新写法是什么?

以下为明细明细:

1. 关于定义:Robots指令是搜索引擎来到网站第一个访问的文件,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

2. 为什么要研究Robots:更好的告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取,对一些没有必要抓取的页面进行第一时间屏蔽

3. 常用语法:Robots常用的语法为以下几种:

(1)User-agent:代表搜索引擎名称

(2)Disallow释义:不允许访问

(3)Allow释义:允许访问

(4)* :匹配任意字符内容

(5)$ :行结束符,通常为页面使用,栏目通常使用“/”(示例:Disallow:/.htm$ )

4. 个别指令示例:有个别指令需要特殊说明,可以有助于大家更好地认识Robots,内容如下:

(1)Disallow: 不允许

(2)Disallow:/ 根目录下面所有文件都不允许抓取

(3)Disallow:/a a开头的目录文件不允许抓取

(4)Disallow:/a/ 不允许抓取a文件夹

(5)Disallow:/chanpin/

(6)Disallow:/*?* 不允许抓取动态url

5. Robots在工作中常见应用场景:有些同学可能会问Robots在工作中到底怎么用呢?我们经常碰到的三种使用场景如下:

(1)新网站没有正式上线,屏蔽搜索引擎

(2)有些栏目不想让搜索引擎爬行抓取(不重要的栏目)

(3)动态URL屏蔽

6. Robots怎么做:

(1)新建Robots.txt文档

(2)撰写Robots协议规则要求

(3)上传到网站空间根目录(可以去百度搜索资源平台,进行检测访问权限是否生效)

 

文章“【互联网营销基础知识】网站Robots.txt的最新写法是什么?”已帮助

>>本文地址:https://www.ujiuye.com/zhuanye/2020/48580.html

THE END  

声明:本站稿件版权均属中公教育优就业所有,未经许可不得擅自转载。

1 您的年龄

2 您的学历

3 您更想做哪个方向的工作?

获取测试结果
  • 大前端大前端
  • 大数据大数据
  • 互联网营销互联网营销
  • JavaJava
  • Linux云计算Linux
  • Python+人工智能Python
  • 嵌入式物联网嵌入式
  • 全域电商运营全域电商运营
  • 软件测试软件测试
  • 室内设计室内设计
  • 平面设计平面设计
  • 电商设计电商设计
  • 网页设计网页设计
  • 全链路UI/UE设计UI设计
  • VR/AR游戏开发VR/AR
  • 网络安全网络安全
  • 新媒体与短视频运营新媒体
  • 直播带货直播带货
  • 智能机器人软件开发智能机器人
 

快速通道fast track

近期开班时间TIME