腾讯云操作系统内核团队悄然修复bug,获Linux创始人Linus Torvalds 赞许

腾讯云操作系统内核团队悄然修复bug,获Linux创始人Linus Torvalds 赞许
2024年12月31日 11:35 网易新闻

12月30日获悉,腾讯云操作系统(Tencent OS)内核团队在Linux社区默默提交的两项改进,成功解决了自2021年以来一直困扰着一线厂商,并在近期让多个Linux顶级Maintainer(软件维护者)困惑的关键内核bug。这一改进方案最终被合并进入后续的LinuxLTS(Long-term support)版本中,并获得了Linux之父Linus Torvalds的高度评价。

Linus:“不明,觉赞”

大约两个月前,Linux社区中的一封邮件引起了广泛关注。其内容主要是,自2021年12月起,Linux内核中启用了Large folio特性(能够提升系统访存性能)的XFS文件系统用户(但不仅限于XFS)有概率遭遇缓存损毁导致的宕机问题。该问题受到了社区的高度重视。

XFS是最常见的Linux文件系统之一,在常见的Linux使用场景中,如服务器、桌面等,XFS被作为主力文件系统大量采用。尽管该bug较难触发,但其潜在风险仍然让社区和各大厂商感到不安。Meta和Cloudflare等公司甚至不得不暂时禁用XFS的Large folio特性以确保系统稳定。

一个多星期的讨论中,大家迟迟没有捕捉到bug所引发的具体位置或线索,只是确认bug确实存在而且亟需修复。几位顶级Maintainer,以及Linus Torvalds本人也参与进入讨论。

社区在广泛排查的过程中,突然发现这个问题在新的Linux内核版本中已经不复存在。进一步的调查发现,这一变化归功于腾讯云操作系统内核团队在今年4月提交的两项改进。

原来,腾讯云操作系统内核团队在进行操作系统性能优化研发时发现,操作系统内核使用XArray(内核中用于处理广范围地址索引结构的基数树处理库)管理Page Cache(页面缓存)时,会因XArray在分配内存时没有考虑好并发修改的问题,导致分配的内存指针可能指向错误的数据,对外表现为XFS与其他引入了Large Folio特性的文件系统均有概率出现卡死宕机甚至数据丢失的情况。

针对这一问题,腾讯云操作系统内核团队在优化Page Cache对Xarray的使用上,引入了一个新的辅助函数,简化了Xarray的中Large Folio的插入算法,并进一步梳理和修复了内存分配的并发处理,确保了即使在多线程环境下,内存分配和释放也能正确进行。这些改动不仅修复了数据损坏的问题,还提升了操作系统系统的性能。

经历了数个星期的讨论与分析后,这些改动被社区认为是最佳的修复方案。

如今,这一修复方案已经被合入了最新的操作系统版本中,为这一问题画上了句号。同时,方案也极大提升了大文件在Page Cache中的读入性能,数以十亿计运行Linux的设备,都会因此快一点。

除了这次贡献外,腾讯云操作系统内核团队近年来通过与社区的紧密合作,在swap(交换空间)、memory cgroup(内存控制组)、页面与热度管理等方面持续进行技术创新,不断提升Linux内核的性能和稳定性,助力操作系统技术发展。

目前,腾讯云也开发了自研的服务器操作系统版本TencentOS Server,装机规模超过1000万套,除了支撑腾讯自研的国民级应用,也广泛服务了互联网、金融、政务、工业、能源、交通等行业客户。

海量资讯、精准解读,尽在新浪财经APP
操作系统 腾讯云 linux 内存

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 01-06 惠通科技 301601 --
  • 01-06 思看科技 688583 --
  • 12-30 钧崴电子 301458 10.4
  • 12-30 赛分科技 688758 4.32
  • 12-24 星图测控 920116 6.92
  • 新浪首页 语音播报 相关新闻 返回顶部