今天,基于全国产算力训练的深度推理大模型——讯飞星火X1升级版正式上线。
这是一次全面的跃升:
1️⃣综合能力大幅提升。整体效果对标OpenAI o3等国内外一流大模型最新版本效果,在翻译、推理、文本生成、数学等方面保持领先。
2️⃣幻觉治理取得显著进步。幻觉问题是掣肘大模型落地应用的关键问题,升级后的星火X1在幻觉治理方面领先业界主流模型。
3️⃣多语言能力已覆盖130+语种。为世界提供全栈自主可控大模型底座的“第二种选择”。
4️⃣基于星火X1底座的语音同传大模型在翻译效果、实时响应、语音听感、专业精深等方面大幅跃升,持续行业领先。
5️⃣得益于星火X1模型的升级,教育、医疗、企业应用、代码、科研等行业大模型和智能体也取得了新的进步,在复杂行业场景任务上进一步解决用户关键刚需。
6️⃣星火X1最新升级的能力可直接在讯飞星火网页版和APP进行体验,全新API已同步上线讯飞开放平台。
构建可信任的AI底座,打造懂你的“全场景助手”。
接下来,我们一起来看看具体细节吧!👇
此次升级,星火X1在多个任务上持续进步,综合能力再升级,特别是在翻译、推理、文本生成、数学、多语言上效果亮眼。
同时,在幻觉治理方面,对于大模型自身生成内容是否符合客观事实的事实性幻觉治理,以及在用户给定额外参考资料时大模型回复是否忠于原文的忠实性幻觉治理两方面均取得明显进步,显著提高了大模型行业落地应用的可靠性。
今年6月,在国内大模型挑战全国高考数学一卷的评测中,星火X1-0420版本突破了140分。本次升级,数学能力再次精进。
例如,2025年全国高考数学一卷的最后一题,难住了不少大模型,星火X1-0720版本完美答对~
今年6月,在国内大模型挑战全国高考数学一卷的评测中,星火X1-0420版本突破了140分。本次升级,数学能力再次精进。
例如,2025年全国高考数学一卷的最后一题,难住了不少大模型,星火X1-0720版本完美答对~
有了星火X1强大的多语言能力加持,讯飞的同传会议服务、SaaS端产品,还有讯飞翻译机、讯飞AI录音笔这些智能设备,翻译效果和用户体验都上了一个新台阶。
这背后离不开三大核心技术的突破——
1️⃣强化学习技术:提出了结合评语模型与细粒度反馈的强化学习技术,将单一标量奖励信号升级为文本级评语信号、在回复各步骤提供细粒度奖励的强化学习改进方案,有效降低了数学答题等任务的训练难度,解决了奖励稀疏痛点;
2️⃣数据反写技术:提出基于人类专家数据的通用认知任务数据反写技术,极大缓解了SFT高质量数据获取困难、人工标注数据成本过高等问题,实现了主观语言类任务文笔和风格化的显著提升;
3️⃣幻觉治理技术:提出了基于多路径采样验证及事实性约束强化学习的幻觉治理技术,在大模型思考过程及回复生成阶段实现客观问题上与标准答案的深度强对齐,大幅减少了在慢思考下的幻觉率,有效保障了文本摘要、RAG等任务的回复可靠性。
原创文章,作者:feiniu,如若转载,请注明出处:https://www.lrblog.cn/218.html