代码生成模型 Code Llama-34B 已在 HumanEval 测试中击败 GPT-4

代码生成模型 Code Llama-34B 已在 HumanEval 测试中击败 GPT-4
2023年08月26日 11:01 PingWest品玩

品玩8月26日讯,据 phind 官方消息,研究团队在Phind 内部数据集上对 CodeLlama-34B 和 CodeLlama-34B-Python 进行微调之后发现,这两款模型微调之后在 HumanEval 测试中的通过率均已超过GPT-4在今年3月份的成绩。

Code Llama 是Meta发布的一款代码生成大模型,拥有7B、13B和34B三个尺寸,同时包含基础模型、Python专用版本等多款模型。 HumanEval  测试显示,未经过微调的CodeLlama-34B 和 CodeLlama-34B-Python 的通过率分别为48.8%和53.7%。

phind 研究团队通过在一个包含约 8 万个高质量编程问题和解决方案的专有数据集上对这两个模型进行了微调。这个数据集是 phind 研究团队内部推出的一个数据集,以指令-答案对为特征。这两个模型均经过了两次训练,训练量达到约16万个示例。此次训练并没有使用 LoRA(大语言低适应,一种微调方案),但研发团队对这两个模型进行了本地微调,并采用了 DeepSpeed ZeRO 3 和 Flash Attention 2 两种训练方法。训练耗时3小时,使用了32 个 A100-80GB GPU。研究团队表示,他们还对数据集采用了 OpenAI 给出的净化方案,确保结果有效且其中不含受污染的示例。

在经过测试之后发现,训练后的  CodeLlama-34B 通过率达到67.6% ,CodeLlama-34B-Python 的通过率达到69.5% 。而 GPT-4在今年3月份的成绩为67%。

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片