robots协议详解，robots指令分析？

用户投稿 • 2022年5月12日 pm1:54 • 网络资讯 • 阅读 387

营销圈公众号引导关注

Robots协议

Robots 协议也称作机器人协议，主要用于搜索引擎去抓取网站页面。通常存放在网站根目录下的robots.txt文件。该协议主要免去不必要的网站路径进行爬取。对于针对性的爬虫。也就没什么意义了。就好比告诉小偷，别偷你的东西。

基于遵循Robots协议进行的爬虫，首先会检查站点根目录下是否存在robots.txt文件，如果存在则根据其中定义的爬取范围进行爬取。如果没有则直接访问页面。

Robots规范

用户代理指令

使用user-agent指令用于指定规则适用于所有爬网程序：

User-agent： *

主要有Googlebot、BaiduSpider等标识

禁止指令

通过一个或多个disallow 指令来遵循用户代理：

User-agent：* 
Disallow：/User

disallow指定url后缀紧接着/User的链接则被阻止。

允许指令

通过allow指令可以避开disallow阻止的链接：

User-agent：* 
Allow：/User/007
Disallow：/User

在disallow指定url后缀紧接着/User的页面则被阻止后，允许爬取/User/007链接地址。

Sitemap 指令

主要用于标识网站地图：

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.lubaogui.com/wp-sitemap.xml

在各个搜索引擎站长工具上使用，便于搜索引擎收录。

Robots 使用

使用robotparser模块进行检验是否遵循robots协议，代码如下：

from urllib.robotparser import RobotFileParser 
from urllib.request import urlopen

rp =RobotFileParser()
rp.parse(urlopen('https://www.lubaogui.com/robots.txt')read()decode('utf-8').split('\n')) 
print(rp.can_fetch('*', 'https://www.lubaogui.com/96'))

=== 打印结果 ===
True

‍虽然爬虫普遍并没用去遵循robots.txt协议，但是建议各位进行爬取时，合理处理提取效率。避免影响目标站点的负载。

好了，这篇文章的内容营销圈就和大家分享到这里，如果大家对网络推广引流和网络创业项目感兴趣，可以添加微信：Sum8338 备注：营销圈引流学习，我拉你进直播课程学习群，每周135晚上都是有实战的推广引流技术和网络创业项目课程分享，当然是免费学！

版权声明：本站部分文章来源互联网用户自发投稿，主要目的在于分享信息，版权归原作者所有，不承担相关法律责任。如有侵权请联系我们反馈邮箱yingxiaoo@foxmail.com，我们将在7个工作日内进行处理，如若转载，请注明本文地址：https://www.yingxiaoo.com/117461.html

赞 (0)

用户投稿

数据报表如何设计，B端业务数据报表设计的3大要点？

上一篇 2022年5月12日 pm1:54

什么是g端，G端需求调研避坑指南详解？

下一篇 2022年5月12日 pm1:54

爱他美奶粉怎么辨别真假，查询真伪的网站详解？

爱他美奶粉在中国市场一直占据进口奶粉销量前十，深受中国宝妈的喜爱，在宝宝出生之前，经过多方比较，最终选择了德国爱他美白金版，但受欢迎的奶粉假货就多，这是一直困扰我的问题，不知道哪里…

2022年4月27日 • 网络资讯
0 0 637
ab型血好吗，各有什么优势？

说到血型，很多人都会有很多的话题要聊，通过血型就能知道你的星座，更是通过星座来判断一个人的性格，但其实这些都是被人臆想出来的，并没有什么事实根据，不过依然有很多人会相信。而常见的…

2022年5月19日 • 网络资讯
0 0 548
网络资讯

os系统是什么，os系统走到头了吗？？

早在十年前，当 elementary OS 首次发布时，它率先带领 Linux 桌面领域迈出了新的一步。Cassidy 有一个愿景，从那时只有开发者和贡献者在使用的 Linux 桌…

2022年5月11日
0 0 405
嚼槟榔为什么上瘾，长期嚼槟榔对人的危害？

不知从什么时候开始，中国突然流行起了咀嚼槟榔，特别是在我国湖南、海南以及台湾省，就是槟榔消费和种植大国。有相关的数据统计显示，湖南省有近40%的青中年人群，都有长期咀嚼槟榔的爱好…

2022年4月29日 • 网络资讯
0 0 453
网络资讯

如何seo网站推广，seo网站推广的3个技巧？

网站推广是企业做互联网营销推广的首要任务，网站是企业在互联网上面的主要终端，我们从其他平台引来的流量最终都是落到网站上，但前提是我们得把网站推广出去用户才知道，推广网站最主要的方式…

2022年4月29日
0 0 369
网络资讯

app推广策略有哪些百万用户背后的APP推广策略以及运营思路？

以家居生活类应用为例用了怎样的推广策略，才能使其达到百万用户的呢？一、应用市场ASO优化如何利用苹果AppStore对于标题、关键字的字数规则，覆盖更多更热的行业搜索词，是第一…

2022年5月31日
0 0 410
网络资讯

微信拍一拍如何设置，功能及文案详解？

微信官方提示后缀搞笑设置需要先更新微信7.0.14，步骤微信我–个人信息–拍一拍，安卓同，注意最多只能输入8个字。安卓系统同样可以，需要更新到最新微信版本，在个人信息那里。后缀…

2022年4月28日
0 0 499
表格自动排序123456，表格如何自动排序123456？

许多朋友在使用excel电子表格的时候都会产生许多的项目序号，可是往往在后期会删除一些无用的项目序号，这样就会使序号出现断码，怎么才能使序号自动生成呢，下面小编就来教教大家。打开…

2022年4月27日 • 网络资讯
0 0 777
网络资讯

超七水晶功效与作用详解，为什么紫发晶又叫超七水晶？

超级七水晶，也被称为旋律晶体和神圣的奇石，这种水晶产自迪拜。旋律石拥有很高的磁场，它可以给人带来很多的灵感，很多人说旋律石是有灵性的。这种水晶无需清洗就可以净化人的心灵，平衡阴阳，…

2022年6月10日
0 0 453
怎样注册淘宝店铺流程，注册淘宝店铺流程及费用？

2021年淘宝开店详细流程以及淘宝开店需要具体的费用明细，帮助分析一下淘宝开店需要多少钱。准备工作：电脑或者手机一台，年满18周岁的身份证，银行卡。步骤：电脑版： 1. 在…

2022年5月28日 • 网络资讯
0 0 450