谷歌开源 robots.txt:使其成为一项互联网标准

谷歌开源 robots.txt:使其成为一项互联网标准
2019年07月02日 20:31 云头条

原标题:谷歌开源 robots.txt:使其成为一项互联网标准 来源:云头条

  谷歌希望让Robots Exclusion Protocol(机器人排除协议)成为一项互联网标准。

谷歌现向开源社区发布robots.txt,希望有一天这个系统能成为一项稳定的互联网标准。

  周一,这个技术巨头概述了开源Robots Exclusion Protocol(REP)的举措——REP更广为人知的叫法是robots.txt,同时开源了其匹配的C ++库。

  REP是网站管理员为试图访问网站的代码明确其行为的一种方式。最初的开发者Martijn Koster发现,他的网站被爬虫程序(crawler)所淹没,于是为了减轻服务器的压力,他在1994年开发了初版标准。

  命令可以嵌入到文本文件中,该文本文件决定了爬虫程序的行为以及是否允许爬虫程序访问域名。

然而,REP并没有成为一项官方标准,因此自上世纪90年代以来,解读该协议的方式迥然不同,它也没有及时更新以适应的现代使用场合。

谷歌的三名研究人员Henner Zeller、Lizzi Harvey和Gary Illyes在博文中称:“自问世以来,REP就没有加以更新,以适应今天的极端情况。对于网站所有者来说,这个问题颇具挑战性,因为模糊的事实上的标准使得很难正确地编写规则。我们希望帮助网站所有者和开发者在互联网上营造令人惊叹的体验,而不是为如何控制爬虫程序而操心。”

谷歌现在已经创建了REP文档草案,并已将提案提交给互联网工程任务组(IETF),该组织负责推广自愿的互联网标准。

  该草案并未改变Koster最初于1994年制定的规则,但确实扩展了面向现代网站的robots.txt解析和匹配功能,比如除了HTTP外还加入了FTP和CoAP。

  此外,谷歌已提议应解析robots.txt文件的前500千字节(kibibyte),以减轻服务器负载,并且还可以实现24小时的最大缓存时间,以防止网站被索引请求所淹没。

  谷歌目前正就规则草案征求反馈意见。

谷歌补充道:“我们在努力为互联网创建者提供控制权,以便告诉我们他们想要为谷歌机器人程序(Googlebot)提供多少信息,进而可以在搜索结果中合法地出现,我们要确保我们做好这一点。”

Github:https:\/\/github.com\/google\/robotstxt

开源 谷歌

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

7X24小时

  • 07-03 杭可科技 688006 27.43
  • 07-03 值得买 300785 28.42
  • 07-03 三只松鼠 300783 14.68
  • 07-02 睿创微纳 688002 20
  • 07-02 天准科技 688003 25.5
  • 股市直播

    • 图文直播间
    • 视频直播间