人工智能大模型年代需要什么样的操作系统？红帽给出了当下更好的回答_新浪科技

AI大模型从ChatGPT3.5问世以来取得了革命性突破。大语言模型通过深度学习算法和大量数据训练，具备创造出高质量的文本、图片、视频等新内容的能力，为脑力劳动带来了创新与效率的双重提升。

本文引用地址：

而AI新时代的到来，也为操作系统带来更多挑战。目前市面上缺少AI原生的操作系统，操作系统对大模型的嵌入深度和广度，还远未达到AI大模型的应用水平。

红帽最新的工作，则是对人工智能大模型的理解，以及对于使用者的支撑。

一、操作系统的演进路线

大型机到个人电脑时代，Windows操作系统搭配Intel的X86架构处理器，凭借其相对友好的图形用户界面、强大的办公套件、互联网浏览等杀手级应用，极大地降低了电脑使用的门槛，标志着个人电脑时代的正式到来。

个人电脑到智能手机时代，传统的PC操作系统无法满足新应用场景，苹果iOS系统以其封闭而优化的生态，以及谷歌Android系统以其开源、可定制性强的优势，结合Arm架构低功耗、小体积的特点，共同引领了智能手机发展。

AI大模型时代，操作系统需更好支持大规模数据处理、模型训练和高效推理，应具备高度集成的AI服务框架、高效的异构计算调度、动态资源管理、优秀的数据安全机制以及跨平台的兼容性。

二、AI大模型年代的操作系统应该具备哪些特征？

● 高度集成的AI服务。操作系统应内嵌AI服务平台，原生支持主流AI框架、集成API，使开发者能够通过简单的接口调用，快速实现自然语言处理、图像识别、声音分析等多种复杂功能。

● 异构计算支持与优化。大模型对算力要求高、突发性强，操作系统需整合异构计算架构，通过智能调度算法动态分配任务，确保在不同的硬件平台上都能发挥最大效能。系统也应支持不同类型的优化算法，减少计算延迟，提升能效比。

● 跨平台与多设备协同。操作系统应具备强大的跨平台能力，实现边缘计算到云计算资源的灵活调度，确保AI大模型应用能在电脑、手机、服务器等多种设备高效运行。

● 生态开放与标准化。操作系统应建立开放的标准和API，推动第三方开发者和云服务提供商广泛参与，形成繁荣的生态系统，促进技术创新。

● 增强的数据安全与隐私保护机制。大模型涉及大量敏感数据，如公司机密信息、个人隐私信息等，若本地算力不足还需接入云端处理。因此，操作系统需集成数据保护技术，确保数据传输存储安全，并建立严格的数据访问控制体系。

红帽的OpenShift平台就满足了以上大部分需求。

● AI服务集成方面，OpenShift内置DevOps功能，使MLOps能够加快交付AI驱动型应用，并简化集成ML模型和持续重新部署以提高预测准确性的迭代流程。包括OpenShift Build、OpenShift Pipelines、OpenShift GitOps用于构建应用、迭代开发及自动化部署。

● 算力优化方面，OpenShift通过红帽认证GPU operator，集成了流行的硬件加速器，从而可以无缝地满足高计算资源要求，帮助选择最佳 ML 模型以提供最高预测准确性，并在模型在生产中遇到新数据时协助ML推理工作。

● 跨平台方面，OpenShift包含多项关键功能，可以跨数据中心、公共云计算和边缘计算以一致的方式实现机器学习运维（MLOps）。

● 生态方面，红帽的开放混合云平台整合了容器、Kubernetes、DevOps等技术与实践，由广泛的合作伙伴提供支持，帮助开发者为生产就绪型AI/ML 环境构建坚实的基础，同时提供AI云服务和快速采用培训。

三、本地化部署AI大模型可能是第一步

（1）为什么大模型需要本地化部署？

● 数据安全合规。金融、医疗、IT、工业等行业AI大模型应用中，私有化部署将确保数据存储与处理均在企业防火墙之内，符合欧洲GDPR、美国加州CCPA等数据保护法规要求，防止数据外泄风险。

● 行业专属模型。私有化部署AI大模型，企业能根据自身业务流程和市场需求定制AI功能，加速产品和服务的创新。如模型微调、新算法快速测试部署、与现有IT系统深度集成，促进AI技术与业务深度融合。

● 长期成本效益。长期来看，私有化部署可以降低云服务费用，特别是在数据处理量巨大或模型频繁使用的情况下，成本效益更为明显。

（2）大模型应该怎么私有化部署？

AI大模型本地化部署全套服务的成本较高。授权费用通常包含模型使用权、技术支持与维护等服务，加上必要的硬件投资，总体开销不容小觑。

图片来源：智谱AI开放平台

考虑到成本控制的需求，企业可以选择一种更为经济灵活的路径——采用开源大模型加定制化部署服务的模式。

LLAMA、Qwen等提供开源预训练模型，企业按需选择合适的模型二次开发和微调。通过第三方技术服务商，企业获得模型选型、部署到后期运维的一站式解决方案，享受开源成本优势，确保系统稳定运行。

——红帽就提供了本地化部署和服务的商业模式。

红帽OpenShift提供了一个适合AI工作负载的可扩展应用平台，并以主流的硬件加速器来加以完善。加拿大皇家银行与红帽、英伟达合作，内部交付AI私有云功能，推动企业IT技术进步的同时，也保障了数据的隐私。

四、端云结合，可能是未来AI大模型操作系统的重点方向

大模型本地化部署面临算力瓶颈问题，训练效率与推理性能受限。需在模型性能上妥协，以适应有限的计算资源。

云平台是AI大模型训练和推理的理想场所，可结合高算力训练、优化、运行参数量更大的模型。此外，云平台还可以接入自然语言理解、图像识别、视频分析等API，可调用服务实现功能的快速集成。

此外，随着阿里云、火山引擎等国内大厂相继推出大模型降价甚至免费的策略，大大降低了企业和开发者接入高质量AI服务的门槛。

图片来源：阿里云大模型服务平台百炼

面向未来，AI大模型需端云结合。端侧私有化部署，减少数据延迟，减少敏感数据传输，增强隐私保护和数据安全性。云端进行模型训练、更大参数模型推理，结合各种接口开发应用，并基于端侧新数据迭代优化模型，持续迭代优化。

红帽的AI端云协同的平台OpenShift ，可以跨公共云、本地、混合云或边缘架构提供一致体验。可以跨数据中心、公共云计算和边缘计算以一致的方式实现机器学习运维。通过应用 DevOps 和 GitOps 原则，企业可以自动化并简化将机器学习模型集成到软件开发、生产、监控、再训练和重新部署的迭代流程。

总结

AI大模型的浪潮不仅推动了技术边界的拓展，也对传统操作系统提出了新的挑战。当前市场上，真正意义上的AI原生操作系统尚属空白，处理大模型所需的高效数据流转、异构资源调度、以及模型生命周期管理等方面的能力存在局限。

红帽作为开源操作系统解决方案的领导者，正探索将AI大模型更深融入操作系统。他们一方面理解AI大模型的技术特性与应用需求，包括模型架构、训练与推理的优化策略，如何利用端侧和云端的资源；同时，构建面向用户的支撑体系，简化开发者、运维人员在操作系统层面上，集成、部署、监控AI大模型的流程，提供一套易用的工具链和框架，快速实现AI大模型的价值转化。基于此，红帽旨在打造更智能、灵活的操作系统，最大限度地释放AI技术的生产力。

关于作者

刘延

关注硬科技、数码等领域。知乎优秀答主。