robots.txt文件写法
表白:黑白圣堂血天使,天剑鬼刀阿修罗。
讲解对象:/robots.txt文件写法
作者:融水公子 rsgz
搜索引擎教程搜索引擎教程 http://www.rsgz.top/post/391.htmlrobot协议
全称:Robots Exclusion Protocol
中文名:爬虫协议/机器人协议/网络爬虫排除标准
作用:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取robots.txt
中文名:robots协议文件
作用:
1 搜索蜘蛛根据robots.txt确定访问的范围
2 robots.txt文件不存在,搜索蜘蛛能访问没有加密的全站文件
文件位置:通常在站点根目录下有存在robots.txt
编辑:使用任何一个常见的文本编辑器都能编辑它
特点:robots.txt是搜索引擎中访问网站的时候要查看的第一个文件
缺点:这个只是扣头上的协议,如果爬虫真的要抓取你的所有未加密的文件,你也没办法,但是声明一下对网站的SEO有好处一个网站有没有使用robots文件,对于搜索引擎的影响会是这样的
robot语法
添加注释 # ----------------------------------------------------------------------------- # author wenjun.zhouwj # 修改 shipeng.gsp # fileEncoding = UTF-8 # # 禁止爬虫爬取无效URL,提升网站核心静态资源抓取及索引效率。 # 无效URL包含:已下线产品线的URL,全动态URL,需权限验证的URL,存在问题的旧静态URL # 等各种无需被SE收录的URL。 # ----------------------------------------------------------------------------- # 对哪些爬虫生效 User-agent: * # 要屏蔽的路径 Disallow: /static/ Disallow: /media/ # 允许抓取的路径 Allow: /author/ Allow: /category/ Allow: /tag/ Allow: /post/ Allow: /links/注意:Disallow: /*#* (表示所有带有#号的链接都不收录)
robots文件在线生成器
推荐大家使用这个小工具--robots文件在线生成器http://tool.chinaz.com/robots/生成结果
===
公众号:小雪妃谢谢大家的支持!可以点击我的头像,进入我的空间浏览更多文章呢。建议大家360doc[www.360doc.com]注册一个账号登录,里面真的有很多优秀的文章,欢迎大家的到来。
---
赞 (0)

