前美团硬件负责人创业，做了一款项链式的“AI相机”｜涌现NewThings

8月19日上午，在海淀区北四环的一座大厦里，我们见到了「光智时空Looki」创始人孙洋。

共享办公区的会议室里，他微笑中带着倦容，白色T恤上磁吸着一个手表大小的黑色圆盘。那是他们第二天就要全球首发的多模态AI穿戴设备：AI生活相机。

多模态AI穿戴设备是如OpenAI、苹果等巨头都在探索，却未推出的新品类，对于一家初创公司更是挑战重重。为了准备这场产品发布会，孙洋和Looki的20多名员工已经奋战数周，正处于正式“亮剑”前的紧张时刻。

不过谈起产品，孙洋却又是难以掩饰的兴奋，声量也高了一度。他向我们展示了这款AI穿戴设备的新功能：当桌子上的咖啡出现在设备摄像头的视野中，设备随即通过手机APP消息提示了这杯咖啡的咖啡因。

“这是我们最近才研究出来的杀手锏功能，我相信应该能让用户眼前一亮。”孙洋激动地说道。

一天后，Looki的首款设备Looki L1正式发布。

这是一款仅重30克的AI生活相机，既可以磁吸，也能像项链一样挂在脖子上。它能看能听，可以感知、记录和理解生活，也能结合云端大模型能力，为用户提供主动式服务。海外售价199美元，计划于2025年9月开始全球发货。

Looki L1没有屏幕，一共只有两个物理按键，可以通过长短按开启间隔录像、拍照、录像和录音功能。AI交互方面，除了Looki app主动推送各类消息以外，用户还可以主动通过L1机身正面的touchpad和设备语音交互，或是在Looki app的对话框里进行文字交互。

△图源：企业授权

孙洋是前美团智能硬件负责人，也负责Looki的产品定义和开发。他的创业想法来自于在美团的工作经历。

2023年，美团内部尝试将AI大模型赋能各条业务线，孙洋负责设计一款AI外卖助手。但在执行中，他发现外卖助手无法做好向用户推荐吃什么这件事。这背后的原因并不在于模型能力不足，而在于缺少context（上下文）。

“模型上知天文下知地理，但是不知道你今天有没有喝水。正是这个鸿沟，导致AI无法提供真正个性化的推荐。”

孙洋得出结论——要让AI更好地服务于个人生活，仅数字世界远远不够，必须要掌握“原子世界”的信息，才能获得context，问题的解法则指向了硬件。

5个月后，他和前同事、美团自动驾驶前算法负责人刘博聪一起创立了Looki。

△Looki创始人孙洋，图源：企业授权

不过，对于一家创业公司而言，布局AI Native硬件不能回避的一个问题是：要打造一个前所未有的新硬件品类本就困难重重，还面临着与互联网、硬件巨头之间的不对称竞争，Looki如何形成壁垒？

面对我们提出的担忧，孙洋的回答出人意料地坦诚。他直言，对于初创公司来说，“所谓的壁垒都是扯淡”。

在他看来，要在一个强敌环伺的市场上突围，只有两个可能：一是抓住非共识，打好认知差；二是要足够快，在对手都看不清楚的时候，就敢去尝试，占领先机。

Looki自去年8月开始开发首款多模态AI产品，彼时多模态模型的能力还不够完备，而Looki能够抢先发布，靠的就是“非共识”和“足够快”。孙洋也坦诚，“这个做法有一定赌的成分。”

实际上，AI大规模风起之后，离职创业入局AI硬件的大厂高管们不在少数，但像孙洋一样，选择做AI原生硬件、和巨头掰腕子的创始人则是凤毛麟角，这无疑是一场巨大的冒险。

对于第一次创业，孙洋做好了放手一搏的准备，他并不惧怕失败。

“我们内部有一句话：你可以优雅的失败。”孙洋告诉《智能涌现》。对他来说，失败不是终点，是一个逗号，一个项目的失败，能带来经验、逻辑，能打磨出一个有战斗力的团队。

以下是《智能涌现》和「光智时空Looki」创始人孙洋的对话，经编辑整理：

“要让AI更好地服务于个人生活，硬件必不可少”

《智能涌现》：你是什么时候下定决心创业的？

孙洋：我有创业想法大约是在2023下半年。当时我在美团负责做一款AI外卖助手，开发过程中，我发现外卖助手无法做好向用户推荐吃什么这件事。尽管模型的智能化有待提高，但问题的核心并不在于模型本身，而在于context（上下文）信息的缺失。

我们看到模型上知天文下知地理，但是不知道你今天吃了什么，有没有喝水。正是这个鸿沟导致AI无法提供真正个性化的推荐和服务。所以我们意识到，需要将这些缺失的信息补充完整。

一开始我们考虑从软件开发层面解决问题，但因为感知能力实际上受硬件限制。无论是手机APP还是PC网页或软件，它们所依赖的硬件本身并无感知能力，因此无法跳出这个局限。这就需要一种新的硬件来打破这种限制。

举个例子，现在我手上举了一杯咖啡，手机和PC是不知道的，这就需要一种新的硬件来感知和识别。这样硬件就可以提醒我，我看到你今天喝了两杯咖啡了，咖啡因摄入要超量了。

《智能涌现》：是怎么思考产品形态的，为什么选择了AI生活相机？

孙洋：我们首先关注的是眼镜这一形态，因为眼镜是五官中离人最近的。我们对眼镜进行了半年多的调研，但后来发现眼镜的供应链能力尚未成熟。它受到续航能力、重量以及功能的限制，不可能三者兼得。

因为我想做的是一个AI Native的事情，所以哪一个形态今天供应链最成熟，能把东西先做出来，就先选择什么形态。所以我们就选择了AI生活相机。

《智能涌现》：你们的产品思路和OpenAI要推的AI项链是不是很相似？

孙洋：我觉得大致思路和方向是一样的。Open AI之前提到说，就是想做一个生活记录的Memory Machine（记忆机器），同样是用硬件感知和记录物理世界，为AI大模型提供关键的context上下文，从而实现更深度的个性化服务。

《智能涌现》：这类AI Native设备的市场空间有多大？

孙洋：最大的机会是像OpenAI所说的，成为每个人将拥有的、手机、电脑之外的第三台设备。但这需要几年的时间周期逐渐发生，不断进行市场渗透。

这样的设备可能不止一种形态。从第一性原理出发，如果想让硬件去感知这个世界，肯定不能放在口袋里，需要是可穿戴设备，有好几种形态都符合要求，比如我们的AI相机、带摄像头的耳机，未来的AI眼镜也可能符合，还可能有其他形态会出现。

《智能涌现》：但创业做AI Native设备难度、挑战也更大，你们为什么这么选。

孙洋：我觉得跟我们的创业初衷密切相关。我跟博聪其实在美团的职位和收入都相对稳定。但选择创业并非仅仅为了做一个生意。我们俩都算是错过了国内移动互联网爆发的那一波浪潮，那时候我俩都在海外。这一波AI肯定是个新浪潮，我们不想再错过了。

我们都知道创业九死一生。但正是因为有九死，我们才更应尝试。今天至少我们在牌桌上跟这个行业一起玩，也许我们不成功，另一家公司把这个路跑通了，他成功了，那我也很高兴。至少大家在一个正确的大方向上，把一个新的、改变性的东西做出来了。这本身就是值得庆贺的尝试。

多模态AI硬件的想象力：从计算卡路里，到瑜伽老师

《智能涌现》：你们从AI的角度来打造生活相机，和大疆、Insta360算是竞品吗?

孙洋：我们的产品理念从根本上是不同的。他们的功能肯定还是以影像为主，追求画质、影像方面的提升，Looki其实更多想在内容和AI能力上做挖掘，所以也并不能替代传统相机。

作为一款AI Native硬件，在设计的时候，我们考虑的是让产品把这种AI感知能力发挥到最极致。所以Looki L1采用了索尼IMX681的图像传感器（和Meta Rayban同款），拍摄分辨率也只有1080p，这样可以保证12小时续航和30克的轻便，从而可以更好地感知和记录生活。

《智能涌现》：目前用户反馈，Looki L1用的最爽、最离不开的功能是什么？

孙洋：我们认为用户觉得最爽的是，终于有一个共鸣感知的东西能够交付给我。

例如我之前所提到的，如果Looki上的应用能提醒用户少摄入咖啡因，用户可能会感到有人在真正关心自己，从而产生愉悦感。

当用户在用餐时，Looki能识别食物并告知卡路里含量，这将是非常有帮助的信息。当用户在练瑜伽的时候，Looki也可以帮忙识别动作的准确度。

这样的应用就像是用户的第二或第三大脑，通过感知连接用户周边信息并与第二大脑相联，从而为用户提供有价值的insights。我认为这正是用户最需要的功能。

《智能涌现》：这个动作和结果，手机可以完成吗？

孙洋：这里面涉及到一个主被动关系的问题。你今天用手机其实也可以做到，但没有人会采取这种做法，因为在这种情况下，人依然是主动的，而AI则是被动的。我们期望能够改变这一状况，让AI变得主动，而人则保持被动。因为在物理世界中，人类本质上是被动的生物。

《智能涌现》：前面提到识别卡路里、瑜伽训练功能，感觉Looki这类硬件可以链接很多AI Agent或者服务商，AI功能会越来越丰富。

孙洋：会的，我们的产品发布后将推出一个developer program，这个计划允许用户推送各种agent，各个方向都会有，比如之前提到的training agent，即用于瑜伽训练的agent，它可能比我们自己官方的优化得更好。

《智能涌现》：Looki L1售价199美元，有什么对标产品吗？

孙洋：相似形态的Insta 360 Go 3算是一个吧，但其实我们并没有太多直接的对标物。价格定在200美元左右，这是美国消费者没有太大压力的价格区间。

《智能涌现》：在上手产品的前期，投喂给AI的数据量相对少一些，会不会导致体验不好。

孙洋：不会。Looki L1有多个功能，用户把一天的数据提供给AI，它已经能够非常好地理解这一天的story line，给用户自动剪辑一个Vlog，并挑选出一天中的亮点Moments，这个功能可以不受限于数据量。

当然也有一些功能依赖数据量，当积累越来越多的数据的时候，AI才会越来越了解用户。

《智能涌现》：大部分用户没有佩戴随身相机，或者吊坠的习惯，对于用户习惯问题，Looki如何应对？

孙洋：本质上产品的逻辑在于成本和收益，没有收益的时候用户当然不愿意戴任何东西。当然这需要一个明确的发展和演变时间，不会一蹴而就。

所以Looki在今天的早期用户也是垂类场景优先，包括陪伴孩子、宠物、旅游、户外运动爬山野营等等。只要AI给予用户好的体验，用户就可以一点点渗透、愿意去尝试新的场景。如果PMF确实找到了，那创新扩散和场景泛化是一个可以期待的事情。

《智能涌现》：你目前对这个产品的销量预期是多少？

孙洋：销量并不是衡量一个产品的核心指标。尤其是在AI硬件领域，市场仍处于初期阶段。我们的新产品发出去后，我们重点关注Looki产品的两个关键指标。首先是用户使用时长的表现。第二是看用户和它的交互方式会不会发生变化。

“创业公司没有壁垒，破局要靠非共识和足够快”

《智能涌现》：巨头的AI硬件进展都不算快，OpenAI的硬件产品也要等到2026年才发布，你的节奏是什么？

孙洋：做AI硬件需要较长的时间周期，从想到idea到真正落地，我们开发这款产品也已经一年了。而多模态模型在2024年的能力还不行，这就有一定的赌的成分。

直到今年年初Gemini2.0推出，多模态能力才上了一个台阶，现有这些场景的效果才做得好了一些。

我们决策做这件事更多的是靠一种conviction（信念），反正去年做不出来，那我们就赌一下。

有些公司可能更多的是从理性ROI的角度去评估。如果按照这个逻辑，等ROI成立了开始做，那今年年初或者四五月份，他们可能才刚下场，距离产品落地还有挺远的距离。

《智能涌现》：很多创新品类在初期都是不完善的，如果让你给Looki L1打个分，满分100分，你给打多少分？

孙洋： 我觉得用这个标准来衡量不是很合适。

因为所有产品的软件能力都是逐渐发展的。硬件本身只是个载体，软件方面，AI和数据结合后其实能做的事情非常之多，这个大模型技术能力以及生态的丰富程度都密切相关。可能100分的标准是逐渐在变化的，所以确实不好打分。

△图源：企业授权

《智能涌现》：你担心被模仿吗？怎么思考“产品壁垒”？

孙洋：没有壁垒。对于初创公司来说，所谓的壁垒都是扯淡。一个初创公司才成立一两年，资源有限，谈相对于大厂有什么壁垒，我觉得是自欺欺人。

但如果非要谈怎么能赢，我觉得首先要在一个非共识的赛道，这件事大部分人不认可，但最后证明可能也是对的，有认知差，这是第一个可能。

第二个是足够快，大家都还看不清楚，可能自己也并不清楚，就不断的去尝试，再收市场反馈，有可能试出来一个PMF，利用这个先机，把飞轮转动起来。我觉得就这两个可能，其他的壁垒都是自欺欺人。

《智能涌现》：有经历多轮周期的创业者跟我说，由于创投大环境不景气，这波AI硬件创业项目获得的资金支持远低于上一波。这对你们有影响吗？

孙洋：我认为这件事是相辅相成的，取决于你的预期是什么。

十几年前的创投环境宽松，一笔投资可以支持企业做多个产品。现在可能就是逐渐一点点迭代去融资，我觉得反而这种方式更健康。很多人会抱怨创业环境的困难，但我认为抱怨并无帮助。

其实无论是在大厂还是在初创公司，做事的逻辑都一样，关键在于如何让大家信任你。这需要你不断交付成果来证明自己。做好一件件事情，这种信任是一步步构建的。

《智能涌现》：那是不是意味着，当前环境对于失败的容错率变低了。

孙洋：我们内部有一句话：你可以优雅的失败。因为创业必不可能一帆风顺，在做各子项目的时候，很容易就会遇到一些挫折，本身创业就是一个不断试的过程，但是每一段尝试肯定都有底层逻辑，如果产品失败了，也可能积累了底层的技术上的infra，也可能积累了一个有战斗力的团队，等等等等。

绝大多数的创业公司其实都是在做第二款、第三款，甚至第四款产品的时候才会成功，我觉得其实每次失败不重要，更重要的是要积累东西。

《智能涌现》：后续的二代、三代产品会是什么方向？它们的迭代会是怎样的？

孙洋：一是肯定希望功耗越来越低，续航越来越长；另一个是在感知能力上、佩戴舒适度等方面也要提升。我们希望这个硬件能以更无感的方式带起来。当然今天的供应链能力还没达到。

AI能力上，希望能够更实时，和手机的这种连接、数据流能更顺。还有很多这种infra底层的东西需要去攻克。

阿里巴巴推出的 AI Agentic 编程工具

Qoder是阿里巴巴推出的 AI Agentic 编程工具，深度理解整个代码库架构，记忆并学习你的习惯，支持MCP工具生态扩展，提供上下文感知补全、内联聊天和一键「维基化」代码结构，自动选最佳模型。Qoder不是简单的代码补全工具，试图成为开发者真正的「思维伙伴」。预览阶段全功能免费开放，助力开发者专注解决真实软件难题。

Qoder的主要功能

智能代码库语义搜索：秒级跨文件、跨模块定位相关符号、调用链与依赖，Qoder支持自然语言与正则双模式查询并高亮影响面。
深度架构洞察：自动构建依赖图、领域边界、设计模式与潜在技术债报告，定位问题根因并给出分层修复方案。
持续记忆引擎：会话级与项目级双层记忆，记录开发者风格、团队规范、历史决策，越用越懂你并在后续互动自动应用。
动态最佳模型路由：Qoder可以根据语言、任务类型、性能预算实时挑选最合适的 LLM，无需手动切换即可获得最优速度与精度。
上下文感知补全：综合光标前后万级 token、目录结构、图片、日志、文档等多模态信息，生成行级补全与下一步编辑预测。
内联聊天&重构：在代码旁直接对话，支持解释、生成单测、重构、性能剖析，无需切换窗口保持心流。
一键“维基化”代码库：自动生成可交互的架构知识图谱、模块职责说明书、API 手册，支持全文搜索与版本对比。
MCP 工具生态：通过 Model Context Protocol 无缝接入数据库、API、浏览器、终端等外部工具，实现读写、调试、部署一条龙。
多模态输入理解：Qoder支持截图、设计稿、日志文件、PDF、序列图等作为上下文，提升需求理解与缺陷复现准确度。
零配置团队同步：记忆、规则、架构图实时云端同步，自动为新成员初始化环境，让团队代码风格与认知一致。

如何使用Qoder

访问官网：使用电脑浏览器访问Qoder官网（https://qoder.com/），根据系统下载对应版本。
安装使用：Qoder目前支持Windows和Mac电脑版（Intel芯片和Apple芯片均支持），下载安装包后安装，注册账号登录。
首次启动会弹出浏览器登录页 → 用 GitHub / GitLab / Google 账户登录 → 勾选要授权的仓库 → 返回本地 IDE 即可。
让 AI 理解整个项目：启动后点击 “Open Folder” 选项目 → 自动开始索引。
使用 Quest Mode 委派任务
- 侧边栏点击 Qoder 图标 → 选 “Quest” → 在输入框用自然语言描述任务，例如：
  
  Upgrade all usages of Axios to the latest version and open a PR
- 点击 “Submit Quest” → 后台代理异步执行 → 完成后通知中心可查看 diff 与一键合并 PR。
用 Memory 固化团队规范
- 打开命令面板（Ctrl+Shift+P）→ “Qoder: Open Memory Rules” → 在打开的 JSON 里添加规则。
- 保存后，所有补全和 Quest 都会自动遵循该规则；如需共享，点击右上角 “Share” 生成链接给团队成员一键导入。

Qoder的核心优势与差异

传统编程工具只是帮你“写代码”，Qoder 则像一个“读过你全部代码、记得你全部习惯、能跨系统替你干活”的资深同事。

全景式上下文：传统编程工具只看光标附近几十行，Qoder 在毫秒级把整个仓库、历史提交、图片、文档、外部 API 文档一次性读进上下文窗口，真正做到“代码即知识图谱”。
会成长的记忆：传统工具设置每次重启归零，Qoder 的 Memory 把个人风格、团队规范、业务规则持续累积，换项目、换电脑也能秒同步。
Quest 异步代理：传统插件只能同步补全，Qoder 的 Quest Mode 把“升级依赖、批量重构、跑测试、提 PR”这种跨小时甚至跨天的任务托管到后台，完成后推送结果。
MCP 无限外挂：传统扩展靠插件市场缓慢更新，Qoder 通过开放 MCP 协议，可像浏览器装扩展一样即时接入数据库、Jira、Docker、云资源，能力随接随用。
零决策模型路由：传统编程工具需要手动选 GPT-3.5/4，Qoder 根据语言、任务复杂度、成本预算自动选最合适模型，开发者无需关心“该用哪个 AI”。
内联即全功能：传统重构要跳窗口、跑脚本，Qoder 在编辑器内直接对话即可完成解释、生成单测、性能剖析、一键应用补丁，全程不跳出 IDE。

Qoder的应用场景

大规模代码迁移：一键发起 Quest，让 AI 在后台完成跨仓库依赖升级（如 Axios v0 → v1、Python 2→3、Spring Boot 2→3），同时生成兼容层、修复破坏性变更并提交 PR。
架构腐化治理：利用全景依赖图与“维基化”报告，自动识别循环依赖、过时模块、重复实现；Quest 接着按分层规范重构，并持续记忆团队新订的架构原则。
遗留系统逆向 & 文档补全：把无文档的百万行老项目扔给 Qoder，5 分钟生成可交互的架构知识图谱 + API 手册；后续任何新人提问“这块业务怎么跑”都可以直接在内联聊天里得到链路级回答。
测试左移 & 覆盖率补齐：选中一个模块 → Inline Chat“为所有 public 方法生成单元测试并达到 80% 行覆盖” → Quest 自动写测试、跑 CI、把失败用例标成待修复 Issue。
多语言微服务协同开发：在包含 Go、TypeScript、Python 的 mono-repo 里，Qoder 自动切最佳模型并用 MCP 调用各自的 linter / formatter / Docker build，保证跨服务接口一致、版本同步。
需求 ↔ 代码双向追溯：产品经理把 Figma 原型截图 + Jira 需求贴进 Quest，Qoder 通过视觉理解 + 需求文本自动生成对应前端组件、补全路由、填充假数据并绑定 API 草稿。
安全与合规自动化审计：接入 OWASP MCP Server，Quest 会在每次 commit 后自动跑 SAST、许可证扫描，发现 CVE 立即提 PR 打补丁并更新 SBOM；Memory 把公司合规规则固化，防止复发。

Qoder的主要功能

智能代码库语义搜索：秒级跨文件、跨模块定位相关符号、调用链与依赖，Qoder支持自然语言与正则双模式查询并高亮影响面。
深度架构洞察：自动构建依赖图、领域边界、设计模式与潜在技术债报告，定位问题根因并给出分层修复方案。
持续记忆引擎：会话级与项目级双层记忆，记录开发者风格、团队规范、历史决策，越用越懂你并在后续互动自动应用。
动态最佳模型路由：Qoder可以根据语言、任务类型、性能预算实时挑选最合适的 LLM，无需手动切换即可获得最优速度与精度。
上下文感知补全：综合光标前后万级 token、目录结构、图片、日志、文档等多模态信息，生成行级补全与下一步编辑预测。
内联聊天&重构：在代码旁直接对话，支持解释、生成单测、重构、性能剖析，无需切换窗口保持心流。
一键“维基化”代码库：自动生成可交互的架构知识图谱、模块职责说明书、API 手册，支持全文搜索与版本对比。
MCP 工具生态：通过 Model Context Protocol 无缝接入数据库、API、浏览器、终端等外部工具，实现读写、调试、部署一条龙。
多模态输入理解：Qoder支持截图、设计稿、日志文件、PDF、序列图等作为上下文，提升需求理解与缺陷复现准确度。
零配置团队同步：记忆、规则、架构图实时云端同步，自动为新成员初始化环境，让团队代码风格与认知一致。

如何使用Qoder

访问官网：使用电脑浏览器访问Qoder官网（https://qoder.com/），根据系统下载对应版本。
安装使用：Qoder目前支持Windows和Mac电脑版（Intel芯片和Apple芯片均支持），下载安装包后安装，注册账号登录。
首次启动会弹出浏览器登录页 → 用 GitHub / GitLab / Google 账户登录 → 勾选要授权的仓库 → 返回本地 IDE 即可。
让 AI 理解整个项目：启动后点击 “Open Folder” 选项目 → 自动开始索引。
使用 Quest Mode 委派任务
- 侧边栏点击 Qoder 图标 → 选 “Quest” → 在输入框用自然语言描述任务，例如：
  
  Upgrade all usages of Axios to the latest version and open a PR
- 点击 “Submit Quest” → 后台代理异步执行 → 完成后通知中心可查看 diff 与一键合并 PR。
用 Memory 固化团队规范
- 打开命令面板（Ctrl+Shift+P）→ “Qoder: Open Memory Rules” → 在打开的 JSON 里添加规则。
- 保存后，所有补全和 Quest 都会自动遵循该规则；如需共享，点击右上角 “Share” 生成链接给团队成员一键导入。

DeepSeek V3.1 – DeepSeek最新开源的AI模型版本

DeepSeek V3.1是什么

DeepSeek V3.1是DeepSeek最新推出的AI模型版本。模型在V3的基础上进行多项升级，上下文窗口从64k扩展至128k，能处理更长的文本输入。模型用混合专家（MoE）架构，参数量与V3相同。DeepSeek V3.1的Base版本已开源至Hugging Face，供开发者下载和研究。模型在编程、物理定律理解、创意写作和数学能力等方面都有明显提升，回答问题时语气更活泼、口语话。

DeepSeek V3.1的主要功能

自然语言处理：DeepSeek V3.1能生成高质量文本，如创意写作和故事创作，回答问题时语气更活泼、信息更丰富。
编程能力：模型能生成更复杂、完成度更高的代码。
数学与逻辑能力：在基础算术题上能给出正确答案，物理模拟效果更符合实际定律，支持更多可调整参数。
多领域知识：对小众历史问题等的回答更准确、信息量更大，且在科技和科学领域也能提供有深度的解答。

DeepSeek V3.1的项目地址

HuggingFace模型库：https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

如何使用DeepSeek V3.1

访问Hugging Face平台：访问Hugging Face的DeepSeek-V3.1-Base模型页面https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
模型下载：下载模型权重、配置文件和脚本代码。
本地部署：在本地环境中安装必要的依赖（如Python、Transformers库等），加载模型并进行推理。
API调用：用Hugging Face提供的API接口，将DeepSeek-V3.1模型集成到自己的应用程序或服务中，实现自动化处理和交互。

DeepSeek V3.1的应用场景

内容创作：用在生成文章、故事、诗歌等创意文本，辅助创作者激发灵感，提高创作效率。
编程辅助：帮助开发者快速生成代码框架，优化代码逻辑，提升编程效率，适合前端开发和小游戏开发。
教育领域：作为教学辅助工具，为学生提供知识解答，解释复杂的科学和历史问题。
科学研究：协助研究人员整理和分析数据，提供科学问题的解答和分析思路。

苹果UDID定制新更新微信无后台推送实时消息提醒版

版本介绍

微信版本8056，实时消息提醒版，无需常驻后台，真正的省电不伤手机，目前测试官微登录无需验证直接可正常登录，无任何封号风险。

小号未测试，小号理论上来说不建议使用，小号在任何多开上面都基本是秒封的。

小号定义，注册低于6个月，不活跃。

高质量账号定义

正常实名，有正常支付行为，正常活跃，历史违规少！这样的账号基本100%无封号风险！

苹果微多美(官网下载更新地址激活授权码卡密独角兽同款)

苹果微多美

一码双开，稳定流畅

TF24H全天稳定下载

主程序最新8.0.29版本

完美兼容最新16系统

好友相册转发按钮

支持iPad扫码登录

百款功能诚邀品鉴

微多美官网：

https://shydfs.cn/wdm

温馨提示：

用激活码进链接下载安装

一个激活码只限一部手机使用

ChatExcel获近千万天使轮融资，全链路AI DataAgent从数据获取到价值交易打造商业闭环平台

ChatExcel 团队近日已完成近千万天使轮融资。此次融资由上海常垒资本、武汉东湖天使基金投资。本轮资金主要用于加速产品研发迭代，以及全球化市场运营推广，进一步提升ChatExcel在数据智能体（DataAgent）领域的领先地位。

ChatExcel作为AI Native团队，由北京大学团队创业成立，是国内领先的生成式AI 表格处理与数据智能体，累计服务用户超千万次。获得央视《赢在AI+》创业大赛智能办公组第一名等多项荣誉，对AI技术保持前沿的探索和商业化落地的落地交付能力。目前已启动PreA轮融资。

ChatExcel定义AI DataAgent，打造数据全链路商业闭环平台

ChatExcel凭借其深厚的学术背景与卓越的技术研发能力，在AI 表格处理与DataAgent 技术上取得了突破性进展。用户仅通过对话，即可处理Excel和数据分析，将用户从繁琐的公式与运算中解放出来，有效降低了Excel和数据使用门槛。

“我们很高兴能够获得这笔天使轮融资，这不仅是对 ChatExcel 团队技术实力和创新理念的认可，更为我们的未来注入了强大的发展动力。” ChatExcel 创始人逄大嵬表示，“我们将利用这笔资金，围绕数据全链路（数据获取、数据准备、分析洞察、数据可视化、决策应用、价值交换）构建AI DataAgent，让数据流通起来，打造商业闭环。”

目前，ChatExcel支持不同数据源处理与分析应用，从Excel文件到数据库数据、互联网网页、第三方数据，并且训练出全球首款适配AIPC级端侧部署的数据垂直模型。同时，ChatExcel 团队正在积极推进产品的迭代升级，计划在未来几个月内推出更多新功能，进一步提升产品的智能化水平和用户体验。随着融资的到位， ChatExcel也将加速开拓海外市场，推动 Data Agent在世界范围内的广泛应用。

规模化落地彰显商业价值，千亿市场机遇可期

ChatExcel 作为AI Native团队，产品即AI，比传统公司更快、更轻、更能打。ChatExcel的商业价值已在实际应用中得到充分验证，自上线后，累计服务用户超千万次。在商业运营上，ChatExcel已经加入华为、联想、惠普、阿里云等大厂生态，为其商业化增长带来持续的支持与合作。

在数据合规上，通过推出“云 – 边 – 端产品矩阵”，全面升级了数据安全策略：云端隔离，文件加密，用户数据不参与大模型训练；ChatExcel一体机本地化部署，确保数据不出内网；AI PC电脑，让ChatExcel在本地处理用户的表格数据。真正做到了可信、多源、安全。

从市场规模来看，智能办公需求和数据分析需求日益增长，InData Labs分析显示，大数据分析市场 2024 – 2032 年将从3482.1亿美元增至超9240亿美元，为AI数据分析创造了巨大的市场机遇。ChatExcel通过技术创新和场景深耕，正在这一蓝海市场中构建独特的竞争优势。

此次近千万元的天使轮融资，将为 ChatExcel 的发展注入强大动力，ChatExcel将从AI的角度出发，重构传统的数据链路，进而加速数据平权，实现人人皆是数据分析师的愿景。

打黑神话 & 只狼超越人类玩家，淘天集团发布首个 3D 动作游戏专用 VLA 模型

3B 多模态大模型在动作角色扮演游戏的战斗任务中，成功率超越 GPT-4o 和人类玩家，淘天集团未来生活实验室团队提出了 CombatVLA，已被 ICCV 2025 接收。

在复杂的三维环境中实现实时决策仍面临重大挑战，要求模型能在秒级时间尺度做出响应，具备高分辨率感知能力，并能够在动态条件下进行战术推理。

如下图所示，团队给出了 CombatVLA 推理得到的 AoT 解释、解析成 Python 代码的动作指令，以及执行这些动作后的帧序列。前三行案例来自“黑神话：悟空”，第四行为“只狼：影逝二度”。

测试案例可视化

▲ 测试案例可视化

第一行中，CombatVLA 检测到自身血量较低，于是先将角色后撤到安全位置，然后按“r”键进行回血操作。
第二行中，CombatVLA 判断定身技能可用，便按下“1”键定身敌人，并立即发动连招，大幅削减敌人血量。
第三行展示了模型有效闪避敌人攻击，并抓住时机用蓄力重击进行反击。
第四行中，在 SSDT 场景下，CombatVLA 先用格挡动作抵御攻击，随后用轻攻击发动忍杀，一击击败敌人。

具体而言，CombatVLA 是一个 3B 级别的模型，通过动作追踪器收集的视频-动作对进行训练，数据被格式化为“动作思维”（action-of-thought, AoT）序列。随后，CombatVLA 无缝集成进动作执行框架，并通过截断 AoT 策略实现高效推理。

实验结果表明，CombatVLA 不仅在战斗理解基准测试中超越了所有现有模型（如 GPT-4o 等），还在游戏战斗中实现了 50 倍的加速。此外，CombatVLA 的任务成功率也高于人类玩家。

打黑神话 & 只狼超越人类玩家，淘天集团发布首个 3D 动作游戏专用 VLA 模型

一. CombatVLA 概览

视觉-语言-动作模型（VLA）结合视觉、语义和动作控制，推动具身智能发展。尽管这类模型在 UI 操作和导航任务表现优异，但 3D 战斗场景（如“黑神话：悟空”和“只狼：影逝二度”）仍面临三大挑战：

1）视觉感知（如敌我定位、运动、环境感知）；
2）战斗推理（识别敌方攻击模式等）；
3）高效推理（实时响应），目前尚无框架在这些任务上表现突出，也缺乏有效的战斗理解评测基准。

且当前方案存在明显缺陷 —— 基于强化学习方法操控游戏的方法们仅凭视觉输入，通过 DQN 和 PPO 等算法训练智能体自主学习战斗，但需要大量预设奖励和反复试错，泛化能力弱。

依赖超大模型（如 GPT-4o）的方法们推理延迟较高，有时高达 60-90 秒，严重影响实时战斗表现，难以落地应用。

为解决这些问题，团队提出了 CombatVLA—— 首个高效 3D 战斗智能专用 VLA 模型。

CombatVLA 基于 3B 参数规模，能处理视觉输入并输出一系列具体可执行的动作指令（支持键鼠操作），实现高效战斗决策。团队首先开发了动作跟踪器自动采集大规模训练数据，

数据被加工为“动作思维”（Action-of-Thought, AoT）格式，方便模型理解和推理战斗动作。

接下来，CombatVLA 采用渐进式学习范式，逐步从视频级到帧级优化动作生成。

最终，模型可嵌入动作执行机器人中，并通过自定义截断输出策略加速推理。

实验表明，CombatVLA 在战斗理解准确率上超过现有大模型，在执行速度上也实现了 50 倍提升。

本文主要贡献如下：

动作跟踪器：开发了一套后台自动记录玩家动作的工具，大幅提升数据采集效率，为后续研究提供基础。
战斗理解基准：基于动作跟踪器建立了 CUBench 评测集，通过 VQA 任务测试模型的敌方识别和动作推理能力。
AoT 数据集：提出分三阶段（视频粗粒度 / 帧级细粒度 / 帧级截断）构建 AoT 数据，助力模型渐进学习战斗技能。
CombatVLA 模型：结合自适应动作权重损失，经过渐进式训练，在战斗理解基准上达到最优。
动作执行框架：将 CombatVLA 无缝嵌入 PC 端执行，实现基于截断策略的 50 倍加速。

CombatVLA 在 CUBench 和任务级实际评测中均达到最优性能

▲ CombatVLA 在 CUBench 和任务级实际评测中均达到最优性能

二.动作追踪器和评测基准

团队开发了一个动作跟踪器，用于收集游戏中的人类动作序列，为战斗理解模型提供了大量训练数据。此外，团队还基于该动作跟踪器建立了一个全面的战斗理解 benchmark，涵盖三个不同任务。

战斗理解评测基准 - CUBench

▲ 战斗理解评测基准 – CUBench

2.1 动作跟踪器

由于标注动作的数据极其稀缺，团队开发了一个高效收集视频-动作对的轻量级 Python 工具，称为动作跟踪器。

该工具可以在后台运行，监控键盘和鼠标操作以记录用户动作，并同步截取游戏截图。

2.2 评测基准

为了让基于 VLM 或 VLA 的模型在 3D ARPG 游戏中有良好表现，必须具备高维视觉感知和战斗语义理解能力。

因此，团队基于三项核心能力（信息获取、理解、推理）构建了战斗理解评测基准 ——CUBench，用于评估模型的战斗智商。

分别为：单图判断、多图判断和多图多选，团队汇总出 914 条数据（39.4% 为信息获取，22.3% 为理解，38.3% 为推理），用于全面测试模型的战斗理解能力。

三.CombatVLA 模型

动作跟踪器、AoT 数据集、CUBench、CombatVLA 模型和动作执行框架

▲ 动作跟踪器、AoT 数据集、CUBench、CombatVLA 模型和动作执行框架

3.1 Action-of-Thought 数据集

受 CoT 启发，团队将动作跟踪器采集的数据转化为“动作思维”数据，如下图所示。具体而言，模型的输出以 JSON 格式表达，包含 [action]（如“按下空格键”）以及 [explanation]（用于描述当前敌人状态、该动作的物理含义等）。

此外，还引入特殊标记⟨TRUNC⟩，用于实现输出截断，以提高推理速度。

数据集和训练范式

▲ 数据集和训练范式

3.2 三阶段渐进式训练

CombatVLA 的训练过程遵循三级渐进式学习范式，使模型能够逐步掌握战斗策略。具体分为：

（1）阶段 1：视频级粗粒度 AoT 微调。

该阶段旨在让模型初步理解战斗环境，数据以若干帧组成的视频为单元，结合每帧对应的动作（时间并不精确对齐）。

这样，模型需要根据整体视频内容推测动作，有助于建立对战斗整体的初步认知，也便于后续稳定训练。

（2）阶段 2：帧级细粒度 AoT 微调。

在 3D 战斗游戏中，模型需要具备秒级反应和快速决策能力。

此阶段构建了动作与若干前序帧严格对齐的数据对（Frames-AoT），帮助模型理解动作前因后果及战斗逻辑。

例如，连续几帧内敌方蓄力攻击，则模型可能触发闪避行为。

（3）阶段 3：帧级截断 AoT 微调。

大模型推理速度与输出长度相关，为提升实时响应，团队引入了⟨TRUNC⟩特殊标记，对 AoT 输出内容进行截断加速。

这样既保留了 AoT 带来的推理优势，又显著提升了模型推理速度。

整个训练过程中，视觉编码器参数冻结，仅微调语言模型参数。

在前两阶段中，AoT 的 [explanation] 置于 [action] 前面，便于模型推理出正确的动作；在第三阶段，AoT 的 [explanation] 置于 [action] 后面，便于模型进行快速截断，以实现推理加速。

3.3 动作执行框架

（1）基于 VLA 的智能体框架。

为让视觉语言模型（VLM）能够像人类一样玩电脑游戏，团队开发了一个轻量级且高效的动作执行智能体。

在实际运行中，框架接收实时游戏画面（视频）作为输入，输出则是具体的键鼠动作指令，实现对游戏角色的自动控制。

团队对实时游戏画面进行帧采样，去除冗余视觉信息，降低 VLM 推理负担。模型推理采用截断输出策略，提取有效动作并执行。

（2）截断推理与执行。

推理过程中，每生成一个新输出 token 就进行监控，一旦检测到特殊的⟨TRUNC⟩标记即停止，将之前的内容解析为动作。这大大加快了推理速度。

最后，利用“pyautogui”库将动作转换为 Python 代码，自动完成键盘鼠标操作，让角色完成战斗任务。

四.实验结果

4.1 实现细节

（1）数据集。

团队选用了“黑神话：悟空（BMW）”和“只狼：影逝二度（SSDT）”两款游戏作为实验平台。

标注人员根据难度将 13 个战斗任务分为四个等级：简单、中等、困难和极难（如下表所示）。

团队通过动作跟踪器在“黑神话：悟空”的第 9 和第 10 任务中收集训练数据。AoT 涵盖 10 种动作，包括“wsad”移动、“shift”冲刺、“space”翻滚（只狼中为格挡防御）、“r”回血、“1”定身、鼠标左键普攻、鼠标右键长按重击等，这些动作可以组合使用。

任务定义

▲ 任务定义

（2）基准测试。团队用战斗理解基准（CUBench）、通用基准（如 MME、VideoMME、OCRBench）和任务级实际评测作为评测方式。

在任务级实战测试中，动作执行框架直接操控 PC 进行战斗，每个基线模型对每个任务测试 10 次，以击败敌人为成功，否则为失败，记录成功率和平均推理时长。

值得注意的是，团队的 CombatVLA 只在极难任务（9 和 10）上微调，测试时将简单到困难难度的任务（1–8, 同一游戏的不同任务）及其他游戏的任务（11–13）作为零样本（zero-shot）测试，以考察泛化能力。

4.2 定量实验结果

战斗理解和通用基准评测结果

▲ 战斗理解和通用基准评测结果

（1）战斗理解评测。在 CUBench 上，CombatVLA 取得了 63.61 的最高平均分，比第二名 Gemini-2.0-flash 高出 5.71 分，较原始基座 Qwen2.5-VL-3B 高出 7.74 分，显著提升了模型的战斗理解能力。

（2）通用基准评测。CombatVLA 在 MME、VideoMME 和 OCRBench 等通用基准上的表现依然与基座模型 Qwen2.5-VL-3B 相当，验证了团队方法的稳健性和泛化能力。

（3）任务级实际评测。团队将 CombatVLA 接入动作执行代理，让其像人类一样自动完成战斗任务。如下图所示，CombatVLA 不仅在简单任务接近人类外，在中高难度任务上全面超越基线，并在零样本任务上也展现出较强的泛化能力。

任务级实际评测结果

▲ 任务级实际评测结果

（4）推理延迟。团队还统计了平均推理延迟和每次动作所需模型调用次数（见下表）。CombatVLA 平均推理延迟仅 1.8 秒，且只需一次模型调用，比 VARP 快约 50 倍，模型调用成本仅为其 1/10。

推理延迟和调用次数比较

▲ 推理延迟和调用次数比较

结束语

本文针对当前视觉语言模型（VLMs）或视觉-语言-动作模型（VLAs）在 3D 动作角色扮演游戏中缺乏秒级响应、高分辨率感知和战术推理能力的问题，提出了 CombatVLA 模型。

该模型规模为 3B，采用 AoT 序列训练，并引入动作对齐损失和模态对比损失进行优化。

CombatVLA 可无缝集成到动作执行框架中，通过截断 AoT 策略实现高效推理。

实验结果表明，CombatVLA 在战斗理解基准上全面超越现有模型，同时具备良好的泛化能力，并在实时战斗场景中实现了 50 倍速度提升。

未来，团队将进一步增强模型对游戏场景的理解能力，拓展其在更多类型游戏甚至物理世界中的应用。

论文链接：https://arxiv.org/pdf/2503.09527
项目主页：https://combatvla.github.io/

本文来自微信公众号：量子位（ID：QbitAI），作者：CombatVLA 团队，原标题《首个 3D 动作游戏专用 VLA 模型，打黑神话 & 只狼超越人类玩家 | ICCV 2025》

哪里不对改哪里！全能图像编辑模型Qwen-Image-Edit来啦

我们很⾼兴推出 Qwen-Image-Edit，Qwen-Image的图像编辑版本。Qwen-Image-Edit基于我们20B的Qwen-Image模型进⼀步训练，成功将Qwen-Image的独特的文本渲染能力延展至图像编辑领域，实现了对图片中文字的精准编辑。此外，Qwen-Image-Edit将输⼊图像同时输⼊到Qwen2.5-VL（实现视觉语义控制）和VAE Encoder（实现视觉外观控制），从而兼具语义与外观的双重编辑能⼒。如需体验最新模型，欢迎访问 Qwen Chat （chat.qwen.ai）并选择“图像编辑”功能。

Qwen-Image-Edit的主要特性包括：

语义与外观双重编辑: Qwen-Image-Edit不仅⽀持low-level的视觉外观编辑（如元素的添加、删除、修改等，要求图片其他区域完全不变），也支持 high-level 的视觉语义编辑（如 IP 创作、物体旋转、风格迁移等，允许整体像素变化但保持语义一致）。
精准⽂字编辑: Qwen-Image-Edit 支持中英文双语文字编辑，可在保留原有字体、字号、风格的前提下，直接对图片中的文字进行增、删、改等操作。
强⼤的基准性能: 在多个公开基准测试中的评估表明，Qwen-Image-Edit 在图像编辑任务上具备SOTA性能，是一个强大的图像编辑基础模型。
ModelScope：

https://modelscope.cn/models/Qwen/Qwen-Image-Edit

Hugging Face：

https://huggingface.co/Qwen/Qwen-Image-Edit

GitHub：

https://github.com/QwenLM/Qwen-Image

Qwen-Image-Edit的一大亮点在于其强大的语义与外观双重编辑能力。所谓语义编辑，是指在保持原始图像视觉语义不变的前提下，对图像内容进行修改。

AudioGenie – 腾讯AI Lab推出的多模态音频生成工具

AudioGenie是什么

AudioGenie是腾讯AI Lab团队推出的多模态音频生成工具，能从视频、文本、图像等多种模态输入生成音效、语音、音乐等多种音频输出。工具采用无训练的多智能体框架，通过生成团队和监督团队的双层架构实现高效协同。生成团队负责将复杂的输入分解为具体的音频子事件，通过自适应混合专家（MoE）协作机制动态选择最适合的模型进行生成。监督团队则负责时空一致性验证，通过反馈循环进行自我纠错，确保生成的音频高度可靠。

AudioGenie建立了全球首个针对多模态到多音频生成（MM2MA）任务的基准测试集MA-Bench，包含198个带有多类型音频注释的视频。在测试中，AudioGenie在9项指标、8项任务中均达到或接近最先进水平，尤其在音质、准确性、内容对齐和美学体验方面表现出色。

AudioGenie的主要功能

多模态输入与多音频输出：支持从视频、文本、图像等多种模态输入，生成音效、语音、音乐等多种音频类型。
无训练多智能体框架：采用双层架构，生成团队负责任务分解和动态模型选择，监督团队负责验证和自我纠错，确保输出的可靠性。
精细化任务分解：将复杂的多模态输入分解为具体的音频子事件，精确标注音频类型、起止时间和内容描述，形成结构化的生成蓝图。
试错与迭代优化：采用基于“思维树”的迭代优化流程，系统会生成候选音频，由监督团队从质量、对齐度、美学等维度进行评估，若存在瑕疵则自动触发修正或重试流程，直至输出满足要求。

AudioGenie的技术原理

双层多智能体架构：采用生成团队和监督团队的双层架构。生成团队负责音频生成任务的分解与执行，监督团队则负责验证输出的时空一致性并提供反馈以优化生成结果。
自适应混合专家（MoE）协作：根据不同的音频子任务，动态选择最适合的模型进行生成，并通过专家间的协作修正机制优化生成方案，提高生成质量和效率。
无训练框架：采用无训练的多智能体系统，避免了传统训练方法中数据稀缺和过拟合的问题，提高了系统的泛化能力和适应性。
时空一致性验证：监督团队通过反馈循环验证生成音频的时空一致性，确保生成的音频在时间和空间上与输入内容协调一致。

AudioGenie的项目地址

项目官网：https://audiogenie.github.io/

AudioGenie的应用场景

影视制作：快速生成与视频内容高度匹配的背景音乐、环境音效和角色配音，提升制作效率并增强观众的沉浸感。
虚拟人物配音：为虚拟主播、虚拟客服等虚拟人物生成自然流畅的语音，更具表现力和真实感。
游戏开发：根据游戏场景自动生成逼真的环境音效、背景音乐和角色语音，增强玩家的沉浸感和游戏体验。
播客制作：依据播客内容自动生成随剧情起伏的配乐，提升播客的吸引力和专业性。
广告片剪辑：快速匹配品牌调性的音效和音乐，节省制作时间和成本，提升广告的吸引力和感染力。