陆师兄运营 – 第 14 页 – 分享ai创作变现教程欢迎交流合作

杨植麟又发大模型！Kimi K2-0905登场，更强编程、创意写作

智东西9月4日消息，昨晚，北京大模型独角兽月之暗面Kimi在其官方Discord上发布新版本Kimi K2-0905模型。

Kimi K2-0905基于基础模型构建，增强了编程能力，仍不具备思考或视觉，但保留了颇受欢迎的Kimi K2-0711模型的个性和风格。

K2-0905新功能包括：
✅ 创意写作仍然是SOTA （幻觉稍微少一些，大脑稳定！）
✅ 更流畅的Claude Code兼容性 —— 不再有恼人的cc + k2 vibes。Agentic工具的使用和编辑文件只需点击
✅ 前端功能解锁 —— 网页和图表看起来就像“厨师之吻”一样美观
✅ 编程 = 升级至256K上下文，超级超级超级难（K2-0711支持最长128K）

该模型暂未开源，现阶段是开放Beta测试邀请。API就绪后，月之暗面会为Beta测试提供一些免费的token。

目前Kimi K2-0905信息较为有限，未公布相关基准测试结果。根据其命名，一些网友推测月之暗面可能会在9月5日披露更多细节。

混元世界模型上新，综合能力问鼎WorldScore排行榜

今天，混元3D世界模型系列最新成员——HunyuanWorld-Voyager（简称混元Voyager）正式发布，这也是业界首个支持原生3D重建的超长漫游世界模型。

该模型聚焦于AI在空间智能领域的应用扩展，将为虚拟现实、物理仿真、游戏开发等领域提供高保真的3D场景漫游能力。

混元Voyager突破了传统视频生成在空间一致性和探索范围上的局限，能够生成长距离、世界一致的漫游场景，支持将视频直接导出为3D格式。

混元Voyager 3D输入-3D输出的特性，与此前已开源的混元世界模型 1.0 高度适配，可进一步扩展 1.0 模型漫游范围，提升复杂场景的生成质量，并可对生成的场景做风格化控制和编辑。

不仅如此，混元Voyager 还可支持视频场景重建、3D物体纹理生成、视频风格定制化生成、视频深度估计等多种3D理解与生成应用，展现出空间智能的潜力。

当前，可交互的视频模型已经展现出在世界模型生成上的潜力。然而，实际应用中（如虚拟现实、物理仿真等）通常需要能够建模的显式 3D 场景，纯视频的生成内容很难为用户提供更加真实的交互形式。

另一方面，直接生成3D形式的世界场景，虽具备更好的空间结构的一致性和交互应用的拓展性，却受限于3D训练数据稀缺与3D表征内存效率低下等问题，无法泛化到更多的类别和更大场景中。

混元Voyager框架创新性地将场景深度预测引入视频生成过程，融合了视频生成与3D建模优势，基于相机可控的视频生成技术，从初始场景视图和用户指定相机轨迹中，合成可自由控制视角、空间连贯的RGB-D视频（包含RGB图像和深度信息的点云视频）。

开源SOTA：阶跃发布端到端语音大模型Step-Audio 2 mini！

大家好，今天阶跃星辰正式发布最强开源端到端语音大模型 Step-Audio 2 mini，该模型在多个国际基准测试集上取得 SOTA 成绩。

它将语音理解、音频推理与生成统一建模，在音频理解、语音识别、跨语种翻译、情感与副语言解析、语音对话等任务中表现突出，并率先支持语音原生的 Tool Calling 能力，可实现联网搜索等操作。

一句话总结，Step-Audio 2 mini “听得清楚、想得明白、说得自然”。模型现已上线 GitHub、Hugging Face 等平台，欢迎大家下载、试用并反馈。

GitHub：https://github.com/stepfun-ai/Step-Audio2

Hugging Face：https://huggingface.co/stepfun-ai/Step-Audio-2-mini

ModelScope：https://www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini

性能 SOTA

Step-Audio 2 mini 在多个关键基准测试中取得 SOTA 成绩，在音频理解、语音识别、翻译和对话场景中表现突出，综合性能超越 Qwen-Omni 、Kimi-Audio 在内的所有开源端到端语音模型，并在大部分任务上超越 GPT-4o Audio。

在通用多模态音频理解测试集 MMAU 上，Step-Audio 2 mini 以 73.2 的得分位列开源端到端语音模型榜首；
在衡量口语对话能力的 URO Bench 上， Step-Audio 2 mini 在基础与专业赛道均拿下开源端到端语音模型最高分，展现出优秀的对话理解与表达能力；
在中英互译任务上， Step-Audio 2 mini 优势明显，在 CoVoST 2 和 CVSS 评测集上分别取得 39.3 和 29.1 的分数，大幅领先 GPT-4o Audio 和其他开源语音模型；
在语音识别任务上，Step-Audio 2 mini 取得多语言和多方言第一。其中开源中文测试集平均 CER（字错误率） 3.19，开源英语测试集平均 WER（词错误率） 3.50，领先其他开源模型 15% 以上。

论文链接：https://arxiv.org/abs/2507.16632

真端到端架构，轻松听懂“弦外之音”

过往的 AI 语音常被吐槽智商、情商双低。一是“没知识”，缺乏文本大模型一样的知识储备和推理能力；二是“冷冰冰”，听不懂潜台词，语气、情绪、笑声这些“弦外之音”。Step-Audio 2 mini 通过创新架构设计，有效解决了此前语音模型存在的问题，做到“走脑又走心”。

真端到端多模态架构：Step-Audio 2 mini 突破传统 ASR+LLM+TTS 三级结构，实现原始音频输入到语音响应输出的直接转换，架构更简洁、时延更低，并能有效理解副语言信息与非人声信号。

图：Step-Audio 2 mini 模型架构图

CoT 推理结合强化学习：Step-Audio 2 mini 在端到端语音模型中首次引入链式思维推理（Chain-of-Thought， CoT）与强化学习联合优化，能对情绪、语调、音乐等副语言和非语音信号进行精细理解、推理并自然回应。
音频知识增强：模型支持包括 web 检索等外部工具，有助于模型解决幻觉问题，并赋予模型在多场景扩展上的能力。

案例分享

下面的案例生动地展示了 Step-Audio 2 的能力。无论是大自然的声音、精湛的配音，还是实时信息搜索，它都能精确理解，展现了在处理复杂音频任务上的巨大潜力。

精准识别，听懂万物之声

Step-Audio 2 mini 像一位听力超棒的音乐家，能分清鸟叫、流水、车声和发条玩具声这四种不同的“音符”。它甚至能听出汽车声中的“激情”——引擎加速和呼啸而过，而不只是冷冰冰地告诉你：“这是车。”

实时搜索，随时获得行业最新资讯

聊到 OpenAI 最新动态，Step-Audio 2 mini 通过工具调用搜索，迅速挖掘出最新语音模型资讯。

语速控制，轻松拿捏

此前，我们发布了同系列满血版 Step Audio 2，现已上线阶跃AI App。打开首页，点击右上角“电话”按钮，即可与模型进行实时对话，体验“深度聆听”和“多音色切换”功能。

不止对话，一起深度思考

当被问及“爱美是自由还是枷锁”这类哲学难题时，Step-Audio 2 mini 能将抽象问题转化为“购物前问自己三个问题”的极简方法论。这背后强大的逻辑推理能力，不仅能引导用户厘清思路，更能找到解决问题的具体路径。

欢迎体验

Step-Audio 2 mini 现已上线阶跃星辰开放平台，欢迎体验和反馈。

体验地址：https://realtime-console.stepfun.com

GLM-4.5编码套餐：20元包月，人人畅享全球顶级Claude Code编码体验

过去一段时间，越来越多开发者在真实编码任务中开始采用 GLM-4.5。

在前端开发、跨文件修改、全栈项目构建等典型场景中，GLM-4.5 展现出稳定、实用的表现，逐步成为不少用户的主要编程助手。

根据反馈，其解决实际问题的能力已接近 Claude Sonnet 4。在多个开源评测中，GLM-4.5 也与国际主流模型保持同等竞争力：

WebDev Arena：与全球领先模型并列第二；
SWE-bench Verified：性能优于 Gemini-2.5-Pro 和 GPT-4.1；
BFCL v4 基准：全球第一，超过 Claude Opus 4.1，成本仅为其 1.5%。

为进一步降低 AI 编码工具的使用门槛，我们正式推出限时 Claude Code 专属套餐「GLM Coding Plan」——月费低至 20 元，让更多用户以合理成本使用高质量的代码生成能力。

在真实 Agentic Coding 场景中展现卓越性能

为评估模型的 Agentic Coding 能力，我们构建了 CC-Bench 评测体系，并将 GLM-4.5 与 Claude Sonnet 4、DeepSeek-V3.1、Kimi-K2 和 Qwen3-Coder-480B 在覆盖六大开发领域的 52 个实际编程任务上进行了对比。所有模型在相同环境中测试，确保公平性。

CC-Bench评测体系：

https://huggingface.co/datasets/zai-org/CC-Bench-trajectories

结果显示，GLM-4.5 在开源模型中表现优异，尤其在任务完成效果和工具调用可靠性方面。GLM-4.5 在编码性能方面接近 Claude Sonnet 4，但价格仅为后者的 1/7，性价比优势显著，为开发者提供高性价比选择。

限时体验，低门槛开启高效编程

自 9 月 1 日起，我们推出「GLM Coding Plan」限时套餐，该套餐适用于智谱最新旗舰模型 GLM-4.5 及 GLM-4.5-Air。用户可通过扫描活动海报二维码，或者登录智谱开放平台 bigmodel.cn，直接购买并获取详细使用攻略。

首期主推 Claude Code，未来将拓展到更多 Coding 工具。目前，GLM-4.5 已接入包括 Claude Code、Cline、Gemini CLI、Grok CLI、CodeGeeX、Kilo Code、Roo Code、Trae 在内的多款主流编程工具，全面支持日常开发流程。

同时，我们在海外站点 api.z.ai 同步推出了对应的海外套餐，满足全球开发者在多场景下的使用需求，欢迎访问了解详情。

美团正式发布并开源 LongCat-Flash-Chat，动态计算开启高效 AI 时代

今天，我们正式发布 LongCat-Flash-Chat，并同步开源。LongCat-Flash 采用创新性混合专家模型（Mixture-of-Experts, MoE）架构，总参数 560 B，激活参数 18.6B~31.3B（平均 27B），实现了计算效率与性能的双重优化。

根据多项基准测试综合评估，作为一款非思考型基础模型，LongCat-Flash-Chat 在仅激活少量参数的前提下，性能比肩当下领先的主流模型，尤其在智能体任务中具备突出优势。并且，因为面向推理效率的设计和创新，LongCat-Flash-Chat 具有明显更快的推理速度，更适合于耗时较长的复杂智能体应用。

目前，我们在 Github、Hugging Face 平台同步开源，同时你也可以访问官网 https://longcat.ai/，与 LongCat-Flash-Chat 开启对话。

/ 技术亮点 /

LongCat-Flash 模型在架构层面引入“零计算专家（Zero-Computation Experts）”机制，总参数量 560 B，每个token 依据上下文需求仅激活 18.6B~31.3 B 参数，实现算力按需分配和高效利用。为控制总算力消耗，训练过程采用 PID 控制器实时微调专家偏置，将单 token 平均激活量稳定在约 27 B。

图1：LongCat-Flash 架构图

此外，LongCat-Flash 在层间铺设跨层通道，使 MoE 的通信和计算能很大程度上并行，极大提高了训练和推理效率。配合定制化的底层优化，LongCat-Flash 在 30 天内完成高效训练，并在 H800 上实现单用户 100+ tokens/s 的推理速度。LongCat-Flash 还对常用大模型组件和训练方式进行了改进，使用了超参迁移和模型层叠加的方式进行训练，并结合了多项策略保证训练稳定性，使得训练全程高效且顺利。

针对智能体（Agentic）能力，LongCat-Flash 自建了Agentic评测集指导数据策略，并在训练全流程进行了全面的优化，包括使用多智能体方法生成多样化高质量的轨迹数据等，实现了优异的智能体能力。

通过算法和工程层面的联合设计，LongCat-Flash 在理论上的成本和速度都大幅领先行业同等规模、甚至规模更小的模型；通过系统优化，LongCat-Flash 在 H800 上达成了 100 tokens/s 的生成速度，在保持极致生成速度的同时，输出成本低至 5元/百万 token。

/ 性能评估 /

全面且严谨的评估表明，LongCat-Flash 是一款强大且全能的模型，它在多个领域表现出卓越的性能优势。以下将从不同维度详细解读：

图2：LongCat-Flash 的基准测试性能

在通用领域知识方面，LongCat-Flash 表现出强劲且全面的性能：在 ArenaHard-V2 基准测试中取得 86.50 的优异成绩，位列所有评估模型中的第二名，充分体现了其在高难度“一对一”对比中的稳健实力。在基础基准测试中仍保持高竞争力，MMLU（多任务语言理解基准）得分为 89.71，CEval（中文通用能力评估基准）得分为 90.44。这些成绩可与目前国内领先的模型比肩，且其参数规模少于 DeepSeek-V3.1、Kimi-K2 等产品，体现出较高的效率。
在智能体（Agentic）工具使用方面，LongCat-Flash 展现出明显优势：即便与参数规模更大的模型相比，其在 τ2-Bench（智能体工具使用基准）中的表现仍超越其他模型；在高复杂度场景下，该模型在 VitaBench（复杂场景智能体基准）中以 24.30 的得分位列第一，彰显出在复杂场景中的强大处理能力。
在编程方面，LongCat-Flash 展现出扎实的实力：其在 TerminalBench（终端命令行任务基准）中，以 39.51 的得分位列第二，体现出在实际智能体命令行任务中的出色熟练度；在 SWE-Bench-Verified（软件工程师能力验证基准）中得分为 60.4，具备较强竞争力。
在指令遵循方面，LongCat-Flash 优势显著：在 IFEval（指令遵循评估基准）中以 89.65 的得分位列第一，展现出在遵循复杂且细致指令时的卓越可靠性；此外，在 COLLIE（中文指令遵循基准）和 Meeseeks-zh（中文多场景指令基准）中也斩获最佳成绩，分别为 57.10 和 43.03，凸显其在中英文两类不同语言、不同高难度指令集上的出色驾驭能力。

/ 模型部署 /

我们同步提供了分别基于 SGLang 和 vLLM 的两种高效部署方案，助您轻松部署、快速体验模型效果。

以下为使用SGLang进行单机部署的示例：

python3 -m sglang.launch_server \    --model meituan-longcat/LongCat-Flash-Chat-FP8 \    --trust-remote-code \    --attention-backend flashinfer \    --enable-ep-moe \    --tp 8

其他更为详细的部署指导请参阅 LongCat-Flash-Chat 仓库：

https://github.com/meituan-longcat/LongCat-Flash-Chat

/ 全面开放，即刻体验 /

前往 https://longcat.ai/ ，立即与 LongCat-Flash-Chat 开启对话。

开源平台地址：

Hugging Face：https://huggingface.co/meituan-longcat/LongCat-Flash-Chat
Github：https://github.com/meituan-longcat/LongCat-Flash-Chat

此次我们的开源仓库统一采用 MIT License，并允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

问小白5 重磅发布：国产大模型实力对标 GPT-5

我们隆重推出“All in One”旗舰模型—问小白5，我们迄今为止最智能、最快捷、最实用的AI系统，各项榜单成绩最接近 GPT-5 的标杆之作。

问小白5 在智能水平上实现了重大突破，在生活、学习、金融、科技等领域提供更实用、更专业的解答。

它是一个统一的系统，能够识别何时快速响应，何时需要更长时间的思考，从而提供专家级的回答，问小白5 面向所有用户开放。

综合性能评测

AA-Index 是一个综合性的 AI 基准评估指标，通过整合数学推理、科学问答、编码与语言理解等多个维度，为全世界共228款大模型提供了统一、全面、有信度的智能能力比较参考，便于科学、公正地评估模型整体表现。

问小白5 以 64.7分的 AA-Index 指标超过 Gemini2.5 Pro ，并成为智能水平最接近 GPT-5 的国产AI大模型。

售价2万5！英伟达推出机器人“最强大脑”：AI算力飙升750%配128GB大内存，宇树已经用上了

英伟达直接把服务器级别的算力塞进了机器人体内。

全新的机器人计算平台Jetson Thor正式发售，基于最新的Blackwell GPU架构，AI算力直接飙升到2070 TFLOPS，比上一代Jetson Orin提高至整整7.5倍，同时能效提高至3.5倍。

128GB的超大内存配置，在边缘计算设备里是前所未有。

在宣传片中，黄仁勋把他当成送给所有机器人的礼物：

黄仁勋表示：

Jetson Thor助力全球百万开发者构建可与物理世界交互、甚至改变物理世界的机器人系统。具备无与伦比的性能与能效，还能够在边缘设备上同时运行多个AI模型。

作为一款卓越的超级计算机，Jetson Thor正在推动物理AI与通用机器人时代真正到来。Jetson Thor基于Jetson软件栈优化，支持所有流行的生成式AI框架和AI推理模型，包括主流语言模型Qwen、DeepSeek以及视觉语言动作模型到和视觉语言模型等。

etson AGX THOR开发者套件美国售价3499美元（约25000人民币，但中国售价尚未公布）。

T5000模组也已发售，购买1000片以上单价2999美元。

其中T5000模组是完整版，T4000模组则是为那些想从Orin升级的用户准备的精简版，功耗也从130W降到了75W。

性能爆表背后的技术细节

Thor的强悍不仅体现在AI算力上，人形机器人需要大量实时控制计算，需要CPU与AI算力同样重要，存储与带宽方面也都得到了升级。

具体特性如下：

GPU：Blackwell架构，最高2560个CUDA核/9个第五代Tensor Core，并支持MIG技术（多实例 GPU）将GPU资源按多任务隔离与并行调度，适配并行多代理/多工作流场景。

CPU：14核Arm Neoverse V3AE，面向实时控制与任务管理的确定性执行与更高吞吐，CPU性能相较前代显著提升。

存储与带宽：128GB 256-bit LPDDR5X，273GB/s显存带宽，为大型Transformer推理与高并发视频编解码提供保障。

功耗：40–130W，支持从移动平台到固定式机器人多样热/功耗配置，开发套件集成导热板与风扇便于热设计评估。

视频编解码：多路4K/8K编解码能力显著增强，有利于多摄并发与长时视频代理推理。

网络与传感：最多4×25GbE，搭配高速摄像头卸载引擎与Holoscan Sensor Bridge，将相机、雷达、激光雷达等数据以极低时延直送 GPU 内存，提升多传感器融合与高频闭环控制的稳定性。

I/O：开发套件与量产模组提供 QSFP28、RJ45、USB 3.x、PCIe Gen5等接口，适配机器人传感/执行器与加速外设扩展

在软件优化上，英伟达也下了功夫。

Jetson Thor原生支持NVIDIA Isaac（仿真/开发）、Isaac GR00T（人形机器人基础模型）、Metropolis（视觉 AI）、Holoscan（传感器工作流），支持从云到边缘统一开发/部署路径。

通过FP4量化和推测解码（speculative decoding）技术，在某些模型上能再获得2倍的性能提升。

数据显示，Thor能在200毫秒内给出第一个token响应，每秒能生成超过25个token，这个速度已经能支撑实时人机对话。

“杭州六小龙”又开源了！一句话爆改空间设计，AI视频生成Agent今年发

智东西8月25日报道，AI不仅能生成文章、图像和视频，还能生成可以动的室内空间设计了！

只需用文字描述3D空间，或者上传一张户型图，你就能让AI创建出一个可交互的3D室内空间。

问客厅一共几个门，AI迅速给出答案“6扇门”。你也可以上难度，一句话让它生成适合老人居住的客厅：

AI能意识到“老人居住”需要的防滑扶手以及家具摆放方式，化身虚拟室内空间设计师，直接替你把防滑扶手、桌椅、窗帘、冰箱、落地灯等都布置好了。

你还可以要求更改细节，比如加一些装饰画：

DE 国内版公测丨支持最新 DeepSeek V3.1

odeBuddy IDE 国内版正式开放公测！🚀
🌟 无需邀请码，即刻免费使用最新 DeepSeek V3.1 模型
官网下载地址（Beta 版）：https://copilot.tencent.com/ide/

用 CodeBuddy，真正实现一个人变成一整个开发团队的极致提效体验，一站式产品工作台，助你规划、开发和发布应用 ⬇️

▶️ 产品设计：一句话生成可落地交互原型，支持上传图片及局部调优
▶️ 研发编码：内置 Figma，设计稿秒变可维护源码。同时，内置腾讯云开发 CloudBase、EdgeOne Pages 及 Supabase，帮助开发者自动配置数据库、用户认证等后端服务，快速构建、部署站点和无服务器应用
▶️ 部署验证：通过 CloudStudio 一键部署至沙箱环境，并生成可分享链接
（详细功能参考腾讯的 AI IDE 来了！国际版开启内测（🎁 评论送邀请码））

💡 DeepSeek-V3.1-Think 是深度求索最新发布的一款同时支持思考模式与非思考模式的混合推理模型。据官方消息，相比前一版本，本次升级在多个方面实现提升：
🆙 编程能力表现突出：社区使用 Aider 测试数据自行测试的结果显示，V3.1在开源模型中领先，在 Aider 编程基准测试中取得71.6%的分数，超越 R1 和 Claude Opus 4（no think），同时推理和响应速度更快。
🆙 更强的 Agent 能力：通过 Post-Training 优化，新模型在工具使用与智能体任务中的表现有较大提升
🆙 更高的思考效率：相比 DeepSeek-R1-0528，DeepSeek-V3.1-Think 能在更短时间内给出答案
🆙 更强的长文本能力：DeepSeek-V3.1 使用外扩阶段训练更充分的 Base 模型，增强了长文本处理能力

欢迎大家下载体验：https://copilot.tencent.com/ide/

钉钉联手通义推出Fun-ASR语音识别大模型，可听懂家居、畜牧等十大行业黑话

8 月 22 日，钉钉、通义实验室语音团队宣布，联手推出新一代语音识别大模型 Fun-ASR，能听懂家装、畜牧等十大行业黑话，并支持企业专属模型定制训练。基于双方深度共建，Fun-ASR 能够准确转写各种语音信号，具备识别多行业术语、不同语言与口音的能力，也能结合上下文信息实现更精准的转录，并支持企业专属模型定制训练，让模型更懂企业场景。目前，Fun-ASR 已被集成进钉钉的多个功能模块，包括会议字幕与同传、智能纪要、语音助手等，旨在构建一套稳定、高效、易扩展的语音识别基座，尤其适用对企业级语境理解、识别准确率有较高要求的场景。

该模型经过上亿小时音频数据的训练，并结合钉钉多行业客户的真实场景共创，能够准确理解互联网、科技、家装、畜牧、汽车等十多个领域的专业术语。

实测数据显示，Fun-ASR 在保险行业的准确率较以往提升 18%，在家装、畜牧等行业也实现了 15%-20% 的提升。针对生僻词汇，Fun-ASR 还提供企业自定义热词能力，最多可支持 1000+ 热词导入。