推广 热搜: 行业  机械  设备    教师  经纪  系统  参数    蒸汽 

在线 Robots.txt 检测工具,网站 Robots 规则验证

   日期:2024-11-13     移动:http://tiush.xhstdz.com/mobile/quote/80561.html

Robots.txt 测试工具,是一款在线验证 robots.txt 规则的工具。通过 Robots.txt 测试工具,可以检测在 robots.txt 设定的规则下,网站指定的页面是否允许网络爬虫访问。

在线 Robots.txt 检测工具,网站 Robots 规则验证

本工具支持的搜索引擎爬虫有:

  • 百度爬虫 - BaiduSpider
  • Google 爬虫 - GoogleBot
  • Bing 爬虫 - BingBot
  • 360 爬虫 - 360Spider
  • 搜狗爬虫 - SougouSpider
  • 宜搜爬虫 - YisouSpider

首先,输入页面 URL,然后选择要检测的爬虫名称(当然,也可以选择 ,表示任意爬虫),点击【开始检测】按钮,即可得到检测结果。

以 https://www.dute.org/blog 页面为例,检测结果如下:

Robots.txt 检测结果:允许访问
Robots.txt 检测结果:允许访问

上述结果表示:对于所有爬虫,均可访问 https://www.dute.org/blog 页面。

再以微信公众号文章页面 https://mp.weixin.qq.com/s 为例,选择 BaiduSpider 进行检测,检测结果如下:

Robots.txt 检测结果:禁止访问
Robots.txt 检测结果:禁止访问

很明显,https://mp.weixin.qq.com/s 页面不允许百度爬虫访问。

其实,选择 也是同样的结果,说明微信公众号文章不允许爬虫爬取其内容。

如果检测到了网站的 robots.txt 文件,本工具还会显示 robots.txt 文件的内容。下面是本站 dute.org 的 robots.txt 的内容:

dute.org 网站的 robots.txt
dute.org 网站的 robots.txt

如果未检测到 robots.txt 文件,则会提示 robots.txt 文件不存在(robots.txt 文件对应的 URL 返回 404 状态码会认为文件不存在)。这种情况,被视为允许访问。道理很明显:作为互联网上可以公开访问的资源,如果网站未通过 robots.txt 的规则明确拒绝,则认为是允许访问的。

如下图所示:

Robots.txt 文件不存在,这种情况认为允许被爬虫访问
Robots.txt 文件不存在,这种情况认为允许被爬虫访问

还有一种情况是,robots.txt 的响应结果既不是 200,也不是 404,是一种未知状态。这种情况下,本工具会给出“检测结果未知”的提示:

未检测到网站 robots.txt 文件
未检测到网站 robots.txt 文件

robots.txt 是一种存放于网站根目录下的 ASCII 编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络爬虫),此网站中的哪些内容是不应被搜索引擎的爬虫获取的,哪些是可以被爬虫获取的。因为一些系统中的URL是大小写敏感的,所以,robots.txt 的文件名应统一为小写。robots.txt 应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的 robots.txt,或者使用 robots 元数据(metadata,又称元数据)。

robots.txt 协议并不是一个规范,而只是一种约定俗成的用法(建议),是否遵守 robots.txt 规则,全凭搜索引擎自身的考虑,所以,并不能严格保证网站的隐私。

robots.txt 还允许使用类似 这样的通配符来匹配一组路径。

注意:robots.txt 是用字符串比较来确定是否获取 URL,因此,目录末尾有斜杠 与没有斜杠,是 2 种不同的 URL。

除了 robots.txt 制定的规则外,其它影响搜索引擎爬虫行为的还有 robots 元数据:

上述 meta 标签,表示禁止搜索引擎索引和跟踪当前页。

提示:如果对 meta 标签不熟悉,本站提供了网页 meta 标签生成工具,可以方便地生成网页常用的 meta 标签,其中包括 robots meta 标签。

下面展示了一些典型的 robots.txt 的规则示例。

1、允许所有爬虫访问

2、仅允许 GoogleBot 访问

3、除了 /blog 外,禁止访问其它页面

4、禁止访问(抓取) 下面的文件

本文地址:http://tiush.xhstdz.com/quote/80561.html    物流园资讯网 http://tiush.xhstdz.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号