KAT-V1模型共有40B和200B两个版本。在自动思考模式下,40B版本的性能可追平今年5月发布的新版DeepSeek-R1(参数量为6850亿)。而200B版本的模型,则在多项基准测试中超过了Qwen、DeepSeek和Llama这三大开源模型家族中的旗舰模型。
快手Kwaipilot团队在技术报告中,揭秘了KAT-V1模型背后的多项技术创新。
该团队不仅提出了一种全新的长短思考混合模型训练范式,还基于传统强化学习算法(GRPO),提出了带有新型强化学习方法Step-SRPO,进一步提升了模型输出token的思考密度以及对是否应该开启思考模式的判断力。
在部分基准测试中,即使模型自我选择不开启思考模式,受益于融合训练方法和推理模板,性能也有小幅上涨。
原创文章,作者:feiniu,如若转载,请注明出处:https://www.lrblog.cn/220.html