前美团硬件负责人创业,做了一款项链式的“AI相机”|涌现NewThings

8月19日上午,在海淀区北四环的一座大厦里,我们见到了「光智时空Looki」创始人孙洋。

共享办公区的会议室里,他微笑中带着倦容,白色T恤上磁吸着一个手表大小的黑色圆盘。那是他们第二天就要全球首发的多模态AI穿戴设备:AI生活相机。

多模态AI穿戴设备是如OpenAI、苹果等巨头都在探索,却未推出的新品类,对于一家初创公司更是挑战重重。为了准备这场产品发布会,孙洋和Looki的20多名员工已经奋战数周,正处于正式“亮剑”前的紧张时刻。

不过谈起产品,孙洋却又是难以掩饰的兴奋,声量也高了一度。他向我们展示了这款AI穿戴设备的新功能:当桌子上的咖啡出现在设备摄像头的视野中,设备随即通过手机APP消息提示了这杯咖啡的咖啡因。

“这是我们最近才研究出来的杀手锏功能,我相信应该能让用户眼前一亮。”孙洋激动地说道。

一天后,Looki的首款设备Looki L1正式发布。

这是一款仅重30克的AI生活相机,既可以磁吸,也能像项链一样挂在脖子上。它能看能听,可以感知、记录和理解生活,也能结合云端大模型能力,为用户提供主动式服务。海外售价199美元,计划于2025年9月开始全球发货。

Looki L1没有屏幕,一共只有两个物理按键,可以通过长短按开启间隔录像、拍照、录像和录音功能。AI交互方面,除了Looki app主动推送各类消息以外,用户还可以主动通过L1机身正面的touchpad和设备语音交互,或是在Looki app的对话框里进行文字交互。

图片

△图源:企业授权

孙洋是前美团智能硬件负责人,也负责Looki的产品定义和开发。他的创业想法来自于在美团的工作经历。

2023年,美团内部尝试将AI大模型赋能各条业务线,孙洋负责设计一款AI外卖助手。但在执行中,他发现外卖助手无法做好向用户推荐吃什么这件事。这背后的原因并不在于模型能力不足,而在于缺少context(上下文)。

“模型上知天文下知地理,但是不知道你今天有没有喝水。正是这个鸿沟,导致AI无法提供真正个性化的推荐。”

孙洋得出结论——要让AI更好地服务于个人生活,仅数字世界远远不够,必须要掌握“原子世界”的信息,才能获得context,问题的解法则指向了硬件。

5个月后,他和前同事、美团自动驾驶前算法负责人刘博聪一起创立了Looki。

图片

△Looki创始人孙洋,图源:企业授权

不过,对于一家创业公司而言,布局AI Native硬件不能回避的一个问题是:要打造一个前所未有的新硬件品类本就困难重重,还面临着与互联网、硬件巨头之间的不对称竞争,Looki如何形成壁垒?

面对我们提出的担忧,孙洋的回答出人意料地坦诚。他直言,对于初创公司来说,“所谓的壁垒都是扯淡”。

在他看来,要在一个强敌环伺的市场上突围,只有两个可能:一是抓住非共识,打好认知差;二是要足够快,在对手都看不清楚的时候,就敢去尝试,占领先机。

Looki自去年8月开始开发首款多模态AI产品,彼时多模态模型的能力还不够完备,而Looki能够抢先发布,靠的就是“非共识”和“足够快”。孙洋也坦诚,“这个做法有一定赌的成分。”

实际上,AI大规模风起之后,离职创业入局AI硬件的大厂高管们不在少数,但像孙洋一样,选择做AI原生硬件、和巨头掰腕子的创始人则是凤毛麟角,这无疑是一场巨大的冒险。

对于第一次创业,孙洋做好了放手一搏的准备,他并不惧怕失败。

“我们内部有一句话:你可以优雅的失败。”孙洋告诉《智能涌现》。对他来说,失败不是终点,是一个逗号,一个项目的失败,能带来经验、逻辑,能打磨出一个有战斗力的团队。

以下是《智能涌现》和「光智时空Looki」创始人孙洋的对话,经编辑整理:

“要让AI更好地服务于个人生活,硬件必不可少”

《智能涌现》:你是什么时候下定决心创业的?

孙洋:我有创业想法大约是在2023下半年。当时我在美团负责做一款AI外卖助手,开发过程中,我发现外卖助手无法做好向用户推荐吃什么这件事。尽管模型的智能化有待提高,但问题的核心并不在于模型本身,而在于context(上下文)信息的缺失。

我们看到模型上知天文下知地理,但是不知道你今天吃了什么,有没有喝水。正是这个鸿沟导致AI无法提供真正个性化的推荐和服务。所以我们意识到,需要将这些缺失的信息补充完整。

一开始我们考虑从软件开发层面解决问题,但因为感知能力实际上受硬件限制。无论是手机APP还是PC网页或软件,它们所依赖的硬件本身并无感知能力,因此无法跳出这个局限。这就需要一种新的硬件来打破这种限制。

举个例子,现在我手上举了一杯咖啡,手机和PC是不知道的,这就需要一种新的硬件来感知和识别。这样硬件就可以提醒我,我看到你今天喝了两杯咖啡了,咖啡因摄入要超量了。

《智能涌现》:是怎么思考产品形态的,为什么选择了AI生活相机?

孙洋:我们首先关注的是眼镜这一形态,因为眼镜是五官中离人最近的。我们对眼镜进行了半年多的调研,但后来发现眼镜的供应链能力尚未成熟。它受到续航能力、重量以及功能的限制,不可能三者兼得。

因为我想做的是一个AI Native的事情,所以哪一个形态今天供应链最成熟,能把东西先做出来,就先选择什么形态。所以我们就选择了AI生活相机。

《智能涌现》:你们的产品思路和OpenAI要推的AI项链是不是很相似?

孙洋:我觉得大致思路和方向是一样的。Open AI之前提到说,就是想做一个生活记录的Memory Machine(记忆机器),同样是用硬件感知和记录物理世界,为AI大模型提供关键的context上下文,从而实现更深度的个性化服务。

《智能涌现》:这类AI Native设备的市场空间有多大?

孙洋:最大的机会是像OpenAI所说的,成为每个人将拥有的、手机、电脑之外的第三台设备。但这需要几年的时间周期逐渐发生,不断进行市场渗透。

这样的设备可能不止一种形态。从第一性原理出发,如果想让硬件去感知这个世界,肯定不能放在口袋里,需要是可穿戴设备,有好几种形态都符合要求,比如我们的AI相机、带摄像头的耳机,未来的AI眼镜也可能符合,还可能有其他形态会出现。

《智能涌现》:但创业做AI Native设备难度、挑战也更大,你们为什么这么选。

孙洋:我觉得跟我们的创业初衷密切相关。我跟博聪其实在美团的职位和收入都相对稳定。但选择创业并非仅仅为了做一个生意。我们俩都算是错过了国内移动互联网爆发的那一波浪潮,那时候我俩都在海外。这一波AI肯定是个新浪潮,我们不想再错过了。

我们都知道创业九死一生。但正是因为有九死,我们才更应尝试。今天至少我们在牌桌上跟这个行业一起玩,也许我们不成功,另一家公司把这个路跑通了,他成功了,那我也很高兴。至少大家在一个正确的大方向上,把一个新的、改变性的东西做出来了。这本身就是值得庆贺的尝试。

多模态AI硬件的想象力:从计算卡路里,到瑜伽老师

《智能涌现》:你们从AI的角度来打造生活相机,和大疆、Insta360算是竞品吗?

孙洋:我们的产品理念从根本上是不同的。他们的功能肯定还是以影像为主,追求画质、影像方面的提升,Looki其实更多想在内容和AI能力上做挖掘,所以也并不能替代传统相机。

作为一款AI Native硬件,在设计的时候,我们考虑的是让产品把这种AI感知能力发挥到最极致。所以Looki L1采用了索尼IMX681的图像传感器(和Meta Rayban同款),拍摄分辨率也只有1080p,这样可以保证12小时续航和30克的轻便,从而可以更好地感知和记录生活。

《智能涌现》:目前用户反馈,Looki L1用的最爽、最离不开的功能是什么?

孙洋:我们认为用户觉得最爽的是,终于有一个共鸣感知的东西能够交付给我。

例如我之前所提到的,如果Looki上的应用能提醒用户少摄入咖啡因,用户可能会感到有人在真正关心自己,从而产生愉悦感。

当用户在用餐时,Looki能识别食物并告知卡路里含量,这将是非常有帮助的信息。当用户在练瑜伽的时候,Looki也可以帮忙识别动作的准确度。

这样的应用就像是用户的第二或第三大脑,通过感知连接用户周边信息并与第二大脑相联,从而为用户提供有价值的insights。我认为这正是用户最需要的功能。

《智能涌现》:这个动作和结果,手机可以完成吗?

孙洋:这里面涉及到一个主被动关系的问题。你今天用手机其实也可以做到,但没有人会采取这种做法,因为在这种情况下,人依然是主动的,而AI则是被动的。我们期望能够改变这一状况,让AI变得主动,而人则保持被动。因为在物理世界中,人类本质上是被动的生物。

《智能涌现》:前面提到识别卡路里、瑜伽训练功能,感觉Looki这类硬件可以链接很多AI Agent或者服务商,AI功能会越来越丰富。

孙洋:会的,我们的产品发布后将推出一个developer program,这个计划允许用户推送各种agent,各个方向都会有,比如之前提到的training agent,即用于瑜伽训练的agent,它可能比我们自己官方的优化得更好。

《智能涌现》:Looki L1售价199美元,有什么对标产品吗?

孙洋:相似形态的Insta 360 Go 3算是一个吧,但其实我们并没有太多直接的对标物。价格定在200美元左右,这是美国消费者没有太大压力的价格区间。

《智能涌现》:在上手产品的前期,投喂给AI的数据量相对少一些,会不会导致体验不好。

孙洋:不会。Looki L1有多个功能,用户把一天的数据提供给AI,它已经能够非常好地理解这一天的story line,给用户自动剪辑一个Vlog,并挑选出一天中的亮点Moments,这个功能可以不受限于数据量。

当然也有一些功能依赖数据量,当积累越来越多的数据的时候,AI才会越来越了解用户。

《智能涌现》:大部分用户没有佩戴随身相机,或者吊坠的习惯,对于用户习惯问题,Looki如何应对?

孙洋:本质上产品的逻辑在于成本和收益,没有收益的时候用户当然不愿意戴任何东西。当然这需要一个明确的发展和演变时间,不会一蹴而就。

所以Looki在今天的早期用户也是垂类场景优先,包括陪伴孩子、宠物、旅游、户外运动爬山野营等等。只要AI给予用户好的体验,用户就可以一点点渗透、愿意去尝试新的场景。如果PMF确实找到了,那创新扩散和场景泛化是一个可以期待的事情。

《智能涌现》:你目前对这个产品的销量预期是多少?

孙洋:销量并不是衡量一个产品的核心指标。尤其是在AI硬件领域,市场仍处于初期阶段。我们的新产品发出去后,我们重点关注Looki产品的两个关键指标。首先是用户使用时长的表现。第二是看用户和它的交互方式会不会发生变化。

“创业公司没有壁垒,破局要靠非共识和足够快”

《智能涌现》:巨头的AI硬件进展都不算快,OpenAI的硬件产品也要等到2026年才发布,你的节奏是什么?

孙洋:做AI硬件需要较长的时间周期,从想到idea到真正落地,我们开发这款产品也已经一年了。而多模态模型在2024年的能力还不行,这就有一定的赌的成分。

直到今年年初Gemini2.0推出,多模态能力才上了一个台阶,现有这些场景的效果才做得好了一些。

我们决策做这件事更多的是靠一种conviction(信念),反正去年做不出来,那我们就赌一下。

有些公司可能更多的是从理性ROI的角度去评估。如果按照这个逻辑,等ROI成立了开始做,那今年年初或者四五月份,他们可能才刚下场,距离产品落地还有挺远的距离。

《智能涌现》:很多创新品类在初期都是不完善的,如果让你给Looki L1打个分,满分100分,你给打多少分?

孙洋: 我觉得用这个标准来衡量不是很合适。

因为所有产品的软件能力都是逐渐发展的。硬件本身只是个载体,软件方面,AI和数据结合后其实能做的事情非常之多,这个大模型技术能力以及生态的丰富程度都密切相关。可能100分的标准是逐渐在变化的,所以确实不好打分。

△图源:企业授权

《智能涌现》:你担心被模仿吗?怎么思考“产品壁垒”?

孙洋:没有壁垒。对于初创公司来说,所谓的壁垒都是扯淡。一个初创公司才成立一两年,资源有限,谈相对于大厂有什么壁垒,我觉得是自欺欺人。

但如果非要谈怎么能赢,我觉得首先要在一个非共识的赛道,这件事大部分人不认可,但最后证明可能也是对的,有认知差,这是第一个可能。

第二个是足够快,大家都还看不清楚,可能自己也并不清楚,就不断的去尝试,再收市场反馈,有可能试出来一个PMF,利用这个先机,把飞轮转动起来。我觉得就这两个可能,其他的壁垒都是自欺欺人。

《智能涌现》:有经历多轮周期的创业者跟我说,由于创投大环境不景气,这波AI硬件创业项目获得的资金支持远低于上一波。这对你们有影响吗?

孙洋:我认为这件事是相辅相成的,取决于你的预期是什么。

十几年前的创投环境宽松,一笔投资可以支持企业做多个产品。现在可能就是逐渐一点点迭代去融资,我觉得反而这种方式更健康。很多人会抱怨创业环境的困难,但我认为抱怨并无帮助。

其实无论是在大厂还是在初创公司,做事的逻辑都一样,关键在于如何让大家信任你。这需要你不断交付成果来证明自己。做好一件件事情,这种信任是一步步构建的。

《智能涌现》:那是不是意味着,当前环境对于失败的容错率变低了。

孙洋:我们内部有一句话:你可以优雅的失败。因为创业必不可能一帆风顺,在做各子项目的时候,很容易就会遇到一些挫折,本身创业就是一个不断试的过程,但是每一段尝试肯定都有底层逻辑,如果产品失败了,也可能积累了底层的技术上的infra,也可能积累了一个有战斗力的团队,等等等等。

绝大多数的创业公司其实都是在做第二款、第三款,甚至第四款产品的时候才会成功,我觉得其实每次失败不重要,更重要的是要积累东西。

《智能涌现》:后续的二代、三代产品会是什么方向?它们的迭代会是怎样的?

孙洋:一是肯定希望功耗越来越低,续航越来越长;另一个是在感知能力上、佩戴舒适度等方面也要提升。我们希望这个硬件能以更无感的方式带起来。当然今天的供应链能力还没达到。

AI能力上,希望能够更实时,和手机的这种连接、数据流能更顺。还有很多这种infra底层的东西需要去攻克。

阿里巴巴推出的 AI Agentic 编程工具

Qoder是阿里巴巴推出的 AI Agentic 编程工具,深度理解整个代码库架构,记忆并学习你的习惯,支持MCP工具生态扩展,提供上下文感知补全、内联聊天和一键「维基化」代码结构,自动选最佳模型。Qoder不是简单的代码补全工具,试图成为开发者真正的「思维伙伴」。预览阶段全功能免费开放,助力开发者专注解决真实软件难题。

Qoder

Qoder的主要功能

  • 智能代码库语义搜索:秒级跨文件、跨模块定位相关符号、调用链与依赖,Qoder支持自然语言与正则双模式查询并高亮影响面。
  • 深度架构洞察:自动构建依赖图、领域边界、设计模式与潜在技术债报告,定位问题根因并给出分层修复方案。
  • 持续记忆引擎:会话级与项目级双层记忆,记录开发者风格、团队规范、历史决策,越用越懂你并在后续互动自动应用。
  • 动态最佳模型路由:Qoder可以根据语言、任务类型、性能预算实时挑选最合适的 LLM,无需手动切换即可获得最优速度与精度。
  • 上下文感知补全:综合光标前后万级 token、目录结构、图片、日志、文档等多模态信息,生成行级补全与下一步编辑预测。
  • 内联聊天&重构:在代码旁直接对话,支持解释、生成单测、重构、性能剖析,无需切换窗口保持心流。
  • 一键“维基化”代码库:自动生成可交互的架构知识图谱、模块职责说明书、API 手册,支持全文搜索与版本对比。
  • MCP 工具生态:通过 Model Context Protocol 无缝接入数据库、API、浏览器、终端等外部工具,实现读写、调试、部署一条龙。
  • 多模态输入理解:Qoder支持截图、设计稿、日志文件、PDF、序列图等作为上下文,提升需求理解与缺陷复现准确度。
  • 零配置团队同步:记忆、规则、架构图实时云端同步,自动为新成员初始化环境,让团队代码风格与认知一致。

如何使用Qoder

  • 访问官网:使用电脑浏览器访问Qoder官网(https://qoder.com/),根据系统下载对应版本。
  • 安装使用:Qoder目前支持Windows和Mac电脑版(Intel芯片和Apple芯片均支持),下载安装包后安装,注册账号登录。
  • 首次启动会弹出浏览器登录页 → 用 GitHub / GitLab / Google 账户登录 → 勾选要授权的仓库 → 返回本地 IDE 即可。
  • 让 AI 理解整个项目:启动后点击 “Open Folder” 选项目 → 自动开始索引。
  • 使用 Quest Mode 委派任务
    • 侧边栏点击 Qoder 图标 → 选 “Quest” → 在输入框用自然语言描述任务,例如:

      Upgrade all usages of Axios to the latest version and open a PR

    • 点击 “Submit Quest” → 后台代理异步执行 → 完成后通知中心可查看 diff 与一键合并 PR。
  • 用 Memory 固化团队规范
    • 打开命令面板(Ctrl+Shift+P)→ “Qoder: Open Memory Rules” → 在打开的 JSON 里添加规则。
    • 保存后,所有补全和 Quest 都会自动遵循该规则;如需共享,点击右上角 “Share” 生成链接给团队成员一键导入。

Qoder

Qoder的核心优势与差异

传统编程工具只是帮你“写代码”,Qoder 则像一个“读过你全部代码、记得你全部习惯、能跨系统替你干活”的资深同事。

  • 全景式上下文:传统编程工具只看光标附近几十行,Qoder 在毫秒级把整个仓库、历史提交、图片、文档、外部 API 文档一次性读进上下文窗口,真正做到“代码即知识图谱”。
  • 会成长的记忆:传统工具设置每次重启归零,Qoder 的 Memory 把个人风格、团队规范、业务规则持续累积,换项目、换电脑也能秒同步。
  • Quest 异步代理:传统插件只能同步补全,Qoder 的 Quest Mode 把“升级依赖、批量重构、跑测试、提 PR”这种跨小时甚至跨天的任务托管到后台,完成后推送结果。
  • MCP 无限外挂:传统扩展靠插件市场缓慢更新,Qoder 通过开放 MCP 协议,可像浏览器装扩展一样即时接入数据库、Jira、Docker、云资源,能力随接随用。
  • 零决策模型路由:传统编程工具需要手动选 GPT-3.5/4,Qoder 根据语言、任务复杂度、成本预算自动选最合适模型,开发者无需关心“该用哪个 AI”。
  • 内联即全功能:传统重构要跳窗口、跑脚本,Qoder 在编辑器内直接对话即可完成解释、生成单测、性能剖析、一键应用补丁,全程不跳出 IDE。

Qoder的应用场景

  • 大规模代码迁移:一键发起 Quest,让 AI 在后台完成跨仓库依赖升级(如 Axios v0 → v1、Python 2→3、Spring Boot 2→3),同时生成兼容层、修复破坏性变更并提交 PR。
  • 架构腐化治理:利用全景依赖图与“维基化”报告,自动识别循环依赖、过时模块、重复实现;Quest 接着按分层规范重构,并持续记忆团队新订的架构原则。
  • 遗留系统逆向 & 文档补全:把无文档的百万行老项目扔给 Qoder,5 分钟生成可交互的架构知识图谱 + API 手册;后续任何新人提问“这块业务怎么跑”都可以直接在内联聊天里得到链路级回答。
  • 测试左移 & 覆盖率补齐:选中一个模块 → Inline Chat“为所有 public 方法生成单元测试并达到 80% 行覆盖” → Quest 自动写测试、跑 CI、把失败用例标成待修复 Issue。
  • 多语言微服务协同开发:在包含 Go、TypeScript、Python 的 mono-repo 里,Qoder 自动切最佳模型并用 MCP 调用各自的 linter / formatter / Docker build,保证跨服务接口一致、版本同步。
  • 需求 ↔ 代码 双向追溯:产品经理把 Figma 原型截图 + Jira 需求贴进 Quest,Qoder 通过视觉理解 + 需求文本自动生成对应前端组件、补全路由、填充假数据并绑定 API 草稿。
  • 安全与合规自动化审计:接入 OWASP MCP Server,Quest 会在每次 commit 后自动跑 SAST、许可证扫描,发现 CVE 立即提 PR 打补丁并更新 SBOM;Memory 把公司合规规则固化,防止复发。

阿里巴巴推出的 AI Agentic 编程工具

Qoder是阿里巴巴推出的 AI Agentic 编程工具,深度理解整个代码库架构,记忆并学习你的习惯,支持MCP工具生态扩展,提供上下文感知补全、内联聊天和一键「维基化」代码结构,自动选最佳模型。Qoder不是简单的代码补全工具,试图成为开发者真正的「思维伙伴」。预览阶段全功能免费开放,助力开发者专注解决真实软件难题。

Qoder

Qoder的主要功能

  • 智能代码库语义搜索:秒级跨文件、跨模块定位相关符号、调用链与依赖,Qoder支持自然语言与正则双模式查询并高亮影响面。
  • 深度架构洞察:自动构建依赖图、领域边界、设计模式与潜在技术债报告,定位问题根因并给出分层修复方案。
  • 持续记忆引擎:会话级与项目级双层记忆,记录开发者风格、团队规范、历史决策,越用越懂你并在后续互动自动应用。
  • 动态最佳模型路由:Qoder可以根据语言、任务类型、性能预算实时挑选最合适的 LLM,无需手动切换即可获得最优速度与精度。
  • 上下文感知补全:综合光标前后万级 token、目录结构、图片、日志、文档等多模态信息,生成行级补全与下一步编辑预测。
  • 内联聊天&重构:在代码旁直接对话,支持解释、生成单测、重构、性能剖析,无需切换窗口保持心流。
  • 一键“维基化”代码库:自动生成可交互的架构知识图谱、模块职责说明书、API 手册,支持全文搜索与版本对比。
  • MCP 工具生态:通过 Model Context Protocol 无缝接入数据库、API、浏览器、终端等外部工具,实现读写、调试、部署一条龙。
  • 多模态输入理解:Qoder支持截图、设计稿、日志文件、PDF、序列图等作为上下文,提升需求理解与缺陷复现准确度。
  • 零配置团队同步:记忆、规则、架构图实时云端同步,自动为新成员初始化环境,让团队代码风格与认知一致。

如何使用Qoder

  • 访问官网:使用电脑浏览器访问Qoder官网(https://qoder.com/),根据系统下载对应版本。
  • 安装使用:Qoder目前支持Windows和Mac电脑版(Intel芯片和Apple芯片均支持),下载安装包后安装,注册账号登录。
  • 首次启动会弹出浏览器登录页 → 用 GitHub / GitLab / Google 账户登录 → 勾选要授权的仓库 → 返回本地 IDE 即可。
  • 让 AI 理解整个项目:启动后点击 “Open Folder” 选项目 → 自动开始索引。
  • 使用 Quest Mode 委派任务
    • 侧边栏点击 Qoder 图标 → 选 “Quest” → 在输入框用自然语言描述任务,例如:

      Upgrade all usages of Axios to the latest version and open a PR

    • 点击 “Submit Quest” → 后台代理异步执行 → 完成后通知中心可查看 diff 与一键合并 PR。
  • 用 Memory 固化团队规范
    • 打开命令面板(Ctrl+Shift+P)→ “Qoder: Open Memory Rules” → 在打开的 JSON 里添加规则。
    • 保存后,所有补全和 Quest 都会自动遵循该规则;如需共享,点击右上角 “Share” 生成链接给团队成员一键导入。

Qoder

DeepSeek V3.1 – DeepSeek最新开源的AI模型版本

DeepSeek V3.1是什么

DeepSeek V3.1是DeepSeek最新推出的AI模型版本。模型在V3的基础上进行多项升级,上下文窗口从64k扩展至128k,能处理更长的文本输入。模型用混合专家(MoE)架构,参数量与V3相同。DeepSeek V3.1的Base版本已开源至Hugging Face,供开发者下载和研究。模型在编程、物理定律理解、创意写作和数学能力等方面都有明显提升,回答问题时语气更活泼、口语话。

DeepSeek V3.1

DeepSeek V3.1的主要功能

  • 自然语言处理:DeepSeek V3.1能生成高质量文本,如创意写作和故事创作,回答问题时语气更活泼、信息更丰富。
  • 编程能力:模型能生成更复杂、完成度更高的代码。
  • 数学与逻辑能力:在基础算术题上能给出正确答案,物理模拟效果更符合实际定律,支持更多可调整参数。
  • 多领域知识:对小众历史问题等的回答更准确、信息量更大,且在科技和科学领域也能提供有深度的解答。

DeepSeek V3.1的项目地址

  • HuggingFace模型库:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

如何使用DeepSeek V3.1

  • 访问Hugging Face平台:访问Hugging Face的DeepSeek-V3.1-Base模型页面https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
  • 模型下载:下载模型权重、配置文件和脚本代码。
  • 本地部署:在本地环境中安装必要的依赖(如Python、Transformers库等),加载模型并进行推理。
  • API调用:用Hugging Face提供的API接口,将DeepSeek-V3.1模型集成到自己的应用程序或服务中,实现自动化处理和交互。

DeepSeek V3.1的应用场景

  • 内容创作:用在生成文章、故事、诗歌等创意文本,辅助创作者激发灵感,提高创作效率。
  • 编程辅助:帮助开发者快速生成代码框架,优化代码逻辑,提升编程效率,适合前端开发和小游戏开发。
  • 教育领域:作为教学辅助工具,为学生提供知识解答,解释复杂的科学和历史问题。
  • 科学研究:协助研究人员整理和分析数据,提供科学问题的解答和分析思路。

苹果UDID定制新更新微信无后台推送实时消息提醒版

版本介绍

微信版本8056,实时消息提醒版,无需常驻后台,真正的省电不伤手机,目前测试官微登录无需验证直接可正常登录,无任何封号风险。

小号未测试,小号理论上来说不建议使用,小号在任何多开上面都基本是秒封的。

小号定义,注册低于6个月,不活跃。

高质量账号定义

正常实名,有正常支付行为,正常活跃,历史违规少!这样的账号基本100%无封号风险!

ChatExcel获近千万天使轮融资,全链路AI DataAgent从数据获取到价值交易打造商业闭环平台

ChatExcel 团队近日已完成近千万天使轮融资。此次融资由上海常垒资本、武汉东湖天使基金投资。本轮资金主要用于加速产品研发迭代,以及全球化市场运营推广,进一步提升ChatExcel在数据智能体(DataAgent)领域的领先地位。

ChatExcel作为AI Native团队,由北京大学团队创业成立,是国内领先的生成式AI 表格处理与数据智能体,累计服务用户超千万次。获得央视《赢在AI+》创业大赛智能办公组第一名等多项荣誉,对AI技术保持前沿的探索和商业化落地的落地交付能力。目前已启动PreA轮融资。

ChatExcel定义AI DataAgent,打造数据全链路商业闭环平台

ChatExcel凭借其深厚的学术背景与卓越的技术研发能力,在AI 表格处理与DataAgent 技术上取得了突破性进展。用户仅通过对话,即可处理Excel和数据分析,将用户从繁琐的公式与运算中解放出来,有效降低了Excel和数据使用门槛。

 

“我们很高兴能够获得这笔天使轮融资,这不仅是对 ChatExcel 团队技术实力和创新理念的认可,更为我们的未来注入了强大的发展动力。” ChatExcel 创始人逄大嵬表示,“我们将利用这笔资金,围绕数据全链路(数据获取、数据准备、分析洞察、数据可视化、决策应用、价值交换)构建AI DataAgent,让数据流通起来,打造商业闭环。”

 

目前,ChatExcel支持不同数据源处理与分析应用 ,从Excel文件到数据库数据、互联网网页、第三方数据,并且训练出全球首款适配AIPC级端侧部署的数据垂直模型。同时,ChatExcel 团队正在积极推进产品的迭代升级,计划在未来几个月内推出更多新功能,进一步提升产品的智能化水平和用户体验。随着融资的到位, ChatExcel也将加速开拓海外市场,推动 Data Agent在世界范围内的广泛应用。

02

规模化落地彰显商业价值,千亿市场机遇可期

ChatExcel 作为AI Native团队,产品即AI,比传统公司更快、更轻、更能打。ChatExcel的商业价值已在实际应用中得到充分验证,自上线后,累计服务用户超千万次。在商业运营上,ChatExcel已经加入华为、联想、惠普、阿里云等大厂生态,为其商业化增长带来持续的支持与合作。

在数据合规上,通过推出“云 – 边 – 端产品矩阵”,全面升级了数据安全策略:云端隔离,文件加密,用户数据不参与大模型训练;ChatExcel一体机本地化部署,确保数据不出内网;AI PC电脑,让ChatExcel在本地处理用户的表格数据。真正做到了可信、多源、安全。

从市场规模来看,智能办公需求和数据分析需求日益增长,InData Labs分析显示,大数据分析市场 2024 – 2032 年将从3482.1亿美元增至超9240亿美元,为AI数据分析创造了巨大的市场机遇。ChatExcel通过技术创新和场景深耕,正在这一蓝海市场中构建独特的竞争优势。

此次近千万元的天使轮融资,将为 ChatExcel 的发展注入强大动力,ChatExcel将从AI的角度出发,重构传统的数据链路,进而加速数据平权,实现人人皆是数据分析师的愿景。

打黑神话 & 只狼超越人类玩家,淘天集团发布首个 3D 动作游戏专用 VLA 模型

3B 多模态大模型在动作角色扮演游戏的战斗任务中,成功率超越 GPT-4o 和人类玩家,淘天集团未来生活实验室团队提出了 CombatVLA,已被 ICCV 2025 接收。

在复杂的三维环境中实现实时决策仍面临重大挑战,要求模型能在秒级时间尺度做出响应,具备高分辨率感知能力,并能够在动态条件下进行战术推理。

如下图所示,团队给出了 CombatVLA 推理得到的 AoT 解释、解析成 Python 代码的动作指令,以及执行这些动作后的帧序列。前三行案例来自“黑神话:悟空”,第四行为“只狼:影逝二度”。

测试案例可视化

▲ 测试案例可视化

  • 第一行中,CombatVLA 检测到自身血量较低,于是先将角色后撤到安全位置,然后按“r”键进行回血操作。

  • 第二行中,CombatVLA 判断定身技能可用,便按下“1”键定身敌人,并立即发动连招,大幅削减敌人血量。

  • 第三行展示了模型有效闪避敌人攻击,并抓住时机用蓄力重击进行反击。

  • 第四行中,在 SSDT 场景下,CombatVLA 先用格挡动作抵御攻击,随后用轻攻击发动忍杀,一击击败敌人。

具体而言,CombatVLA 是一个 3B 级别的模型,通过动作追踪器收集的视频-动作对进行训练,数据被格式化为“动作思维”(action-of-thought, AoT)序列。随后,CombatVLA 无缝集成进动作执行框架,并通过截断 AoT 策略实现高效推理。

实验结果表明,CombatVLA 不仅在战斗理解基准测试中超越了所有现有模型(如 GPT-4o 等),还在游戏战斗中实现了 50 倍的加速。此外,CombatVLA 的任务成功率也高于人类玩家。

一. CombatVLA 概览

视觉-语言-动作模型(VLA)结合视觉、语义和动作控制,推动具身智能发展。尽管这类模型在 UI 操作和导航任务表现优异,但 3D 战斗场景(如“黑神话:悟空”和“只狼:影逝二度”)仍面临三大挑战:

  • 1)视觉感知(如敌我定位、运动、环境感知);

  • 2)战斗推理(识别敌方攻击模式等);

  • 3)高效推理(实时响应),目前尚无框架在这些任务上表现突出,也缺乏有效的战斗理解评测基准。

且当前方案存在明显缺陷 —— 基于强化学习方法操控游戏的方法们仅凭视觉输入,通过 DQN 和 PPO 等算法训练智能体自主学习战斗,但需要大量预设奖励和反复试错,泛化能力弱。

依赖超大模型(如 GPT-4o)的方法们推理延迟较高,有时高达 60-90 秒,严重影响实时战斗表现,难以落地应用。

为解决这些问题,团队提出了 CombatVLA—— 首个高效 3D 战斗智能专用 VLA 模型。

CombatVLA 基于 3B 参数规模,能处理视觉输入并输出一系列具体可执行的动作指令(支持键鼠操作),实现高效战斗决策。团队首先开发了动作跟踪器自动采集大规模训练数据,

数据被加工为“动作思维”(Action-of-Thought, AoT)格式,方便模型理解和推理战斗动作。

接下来,CombatVLA 采用渐进式学习范式,逐步从视频级到帧级优化动作生成。

最终,模型可嵌入动作执行机器人中,并通过自定义截断输出策略加速推理。

实验表明,CombatVLA 在战斗理解准确率上超过现有大模型,在执行速度上也实现了 50 倍提升。

本文主要贡献如下:

  • 动作跟踪器:开发了一套后台自动记录玩家动作的工具,大幅提升数据采集效率,为后续研究提供基础。

  • 战斗理解基准:基于动作跟踪器建立了 CUBench 评测集,通过 VQA 任务测试模型的敌方识别和动作推理能力。

  • AoT 数据集:提出分三阶段(视频粗粒度 / 帧级细粒度 / 帧级截断)构建 AoT 数据,助力模型渐进学习战斗技能。

  • CombatVLA 模型:结合自适应动作权重损失,经过渐进式训练,在战斗理解基准上达到最优。

  • 动作执行框架:将 CombatVLA 无缝嵌入 PC 端执行,实现基于截断策略的 50 倍加速。

CombatVLA 在 CUBench 和任务级实际评测中均达到最优性能

▲ CombatVLA 在 CUBench 和任务级实际评测中均达到最优性能

二.动作追踪器和评测基准

团队开发了一个动作跟踪器,用于收集游戏中的人类动作序列,为战斗理解模型提供了大量训练数据。此外,团队还基于该动作跟踪器建立了一个全面的战斗理解 benchmark,涵盖三个不同任务。

战斗理解评测基准 - CUBench

▲ 战斗理解评测基准 – CUBench

2.1 动作跟踪器

由于标注动作的数据极其稀缺,团队开发了一个高效收集视频-动作对的轻量级 Python 工具,称为动作跟踪器。

该工具可以在后台运行,监控键盘和鼠标操作以记录用户动作,并同步截取游戏截图。

2.2 评测基准

为了让基于 VLM 或 VLA 的模型在 3D ARPG 游戏中有良好表现,必须具备高维视觉感知和战斗语义理解能力。

因此,团队基于三项核心能力(信息获取、理解、推理)构建了战斗理解评测基准 ——CUBench,用于评估模型的战斗智商。

分别为:单图判断、多图判断和多图多选,团队汇总出 914 条数据(39.4% 为信息获取,22.3% 为理解,38.3% 为推理),用于全面测试模型的战斗理解能力。

三.CombatVLA 模型

动作跟踪器、AoT 数据集、CUBench、CombatVLA 模型和动作执行框架

▲ 动作跟踪器、AoT 数据集、CUBench、CombatVLA 模型和动作执行框架

3.1 Action-of-Thought 数据集

受 CoT 启发,团队将动作跟踪器采集的数据转化为“动作思维”数据,如下图所示。具体而言,模型的输出以 JSON 格式表达,包含 [action](如“按下空格键”)以及 [explanation](用于描述当前敌人状态、该动作的物理含义等)。

此外,还引入特殊标记⟨TRUNC⟩,用于实现输出截断,以提高推理速度。

数据集和训练范式

▲ 数据集和训练范式

3.2 三阶段渐进式训练

CombatVLA 的训练过程遵循三级渐进式学习范式,使模型能够逐步掌握战斗策略。具体分为:

(1)阶段 1:视频级粗粒度 AoT 微调。

该阶段旨在让模型初步理解战斗环境,数据以若干帧组成的视频为单元,结合每帧对应的动作(时间并不精确对齐)。

这样,模型需要根据整体视频内容推测动作,有助于建立对战斗整体的初步认知,也便于后续稳定训练。

(2)阶段 2:帧级细粒度 AoT 微调。

在 3D 战斗游戏中,模型需要具备秒级反应和快速决策能力。

此阶段构建了动作与若干前序帧严格对齐的数据对(Frames-AoT),帮助模型理解动作前因后果及战斗逻辑。

例如,连续几帧内敌方蓄力攻击,则模型可能触发闪避行为。

(3)阶段 3:帧级截断 AoT 微调。

大模型推理速度与输出长度相关,为提升实时响应,团队引入了⟨TRUNC⟩特殊标记,对 AoT 输出内容进行截断加速。

这样既保留了 AoT 带来的推理优势,又显著提升了模型推理速度。

整个训练过程中,视觉编码器参数冻结,仅微调语言模型参数。

在前两阶段中,AoT 的 [explanation] 置于 [action] 前面,便于模型推理出正确的动作;在第三阶段,AoT 的 [explanation] 置于 [action] 后面,便于模型进行快速截断,以实现推理加速。

3.3 动作执行框架

(1)基于 VLA 的智能体框架。

为让视觉语言模型(VLM)能够像人类一样玩电脑游戏,团队开发了一个轻量级且高效的动作执行智能体。

在实际运行中,框架接收实时游戏画面(视频)作为输入,输出则是具体的键鼠动作指令,实现对游戏角色的自动控制。

团队对实时游戏画面进行帧采样,去除冗余视觉信息,降低 VLM 推理负担。模型推理采用截断输出策略,提取有效动作并执行。

(2)截断推理与执行。

推理过程中,每生成一个新输出 token 就进行监控,一旦检测到特殊的⟨TRUNC⟩标记即停止,将之前的内容解析为动作。这大大加快了推理速度。

最后,利用“pyautogui”库将动作转换为 Python 代码,自动完成键盘鼠标操作,让角色完成战斗任务。

四.实验结果

4.1 实现细节

(1)数据集。

团队选用了“黑神话:悟空(BMW)”和“只狼:影逝二度(SSDT)”两款游戏作为实验平台。

标注人员根据难度将 13 个战斗任务分为四个等级:简单、中等、困难和极难(如下表所示)。

团队通过动作跟踪器在“黑神话:悟空”的第 9 和第 10 任务中收集训练数据。AoT 涵盖 10 种动作,包括“wsad”移动、“shift”冲刺、“space”翻滚(只狼中为格挡防御)、“r”回血、“1”定身、鼠标左键普攻、鼠标右键长按重击等,这些动作可以组合使用。

任务定义

▲ 任务定义

(2)基准测试。团队用战斗理解基准(CUBench)、通用基准(如 MME、VideoMME、OCRBench)和任务级实际评测作为评测方式。

在任务级实战测试中,动作执行框架直接操控 PC 进行战斗,每个基线模型对每个任务测试 10 次,以击败敌人为成功,否则为失败,记录成功率和平均推理时长。

值得注意的是,团队的 CombatVLA 只在极难任务(9 和 10)上微调,测试时将简单到困难难度的任务(1–8, 同一游戏的不同任务)及其他游戏的任务(11–13)作为零样本(zero-shot)测试,以考察泛化能力。

4.2 定量实验结果

战斗理解和通用基准评测结果

▲ 战斗理解和通用基准评测结果

(1)战斗理解评测。在 CUBench 上,CombatVLA 取得了 63.61 的最高平均分,比第二名 Gemini-2.0-flash 高出 5.71 分,较原始基座 Qwen2.5-VL-3B 高出 7.74 分,显著提升了模型的战斗理解能力。

(2)通用基准评测。CombatVLA 在 MME、VideoMME 和 OCRBench 等通用基准上的表现依然与基座模型 Qwen2.5-VL-3B 相当,验证了团队方法的稳健性和泛化能力。

(3)任务级实际评测。团队将 CombatVLA 接入动作执行代理,让其像人类一样自动完成战斗任务。如下图所示,CombatVLA 不仅在简单任务接近人类外,在中高难度任务上全面超越基线,并在零样本任务上也展现出较强的泛化能力。

任务级实际评测结果

▲ 任务级实际评测结果

(4)推理延迟。团队还统计了平均推理延迟和每次动作所需模型调用次数(见下表)。CombatVLA 平均推理延迟仅 1.8 秒,且只需一次模型调用,比 VARP 快约 50 倍,模型调用成本仅为其 1/10。

推理延迟和调用次数比较

▲ 推理延迟和调用次数比较

结束语

本文针对当前视觉语言模型(VLMs)或视觉-语言-动作模型(VLAs)在 3D 动作角色扮演游戏中缺乏秒级响应、高分辨率感知和战术推理能力的问题,提出了 CombatVLA 模型。

该模型规模为 3B,采用 AoT 序列训练,并引入动作对齐损失和模态对比损失进行优化。

CombatVLA 可无缝集成到动作执行框架中,通过截断 AoT 策略实现高效推理。

实验结果表明,CombatVLA 在战斗理解基准上全面超越现有模型,同时具备良好的泛化能力,并在实时战斗场景中实现了 50 倍速度提升。

未来,团队将进一步增强模型对游戏场景的理解能力,拓展其在更多类型游戏甚至物理世界中的应用。

  • 论文链接:https://arxiv.org/pdf/2503.09527

  • 项目主页:https://combatvla.github.io/

本文来自微信公众号:量子位(ID:QbitAI),作者:CombatVLA 团队,原标题《首个 3D 动作游戏专用 VLA 模型,打黑神话 & 只狼超越人类玩家 | ICCV 2025》

哪里不对改哪里!全能图像编辑模型Qwen-Image-Edit来啦

我们很⾼兴推出 Qwen-Image-Edit,Qwen-Image的图像编辑版本。Qwen-Image-Edit基于我们20B的Qwen-Image模型进⼀步训练,成功将Qwen-Image的独特的文本渲染能力延展至图像编辑领域,实现了对图片中文字的精准编辑。此外,Qwen-Image-Edit将输⼊图像同时输⼊到Qwen2.5-VL(实现视觉语义控制)和VAE Encoder(实现视觉外观控制),从而兼具语义与外观的双重编辑能⼒。如需体验最新模型,欢迎访问 Qwen Chat (chat.qwen.ai)并选择“图像编辑”功能。

Qwen-Image-Edit的主要特性包括:

  • 语义与外观双重编辑: Qwen-Image-Edit不仅⽀持low-level的视觉外观编辑(如元素的添加、删除、修改等,要求图片其他区域完全不变),也支持 high-level 的视觉语义编辑(如 IP 创作、物体旋转、风格迁移等,允许整体像素变化但保持语义一致)。
  • 精准⽂字编辑: Qwen-Image-Edit 支持中英文双语文字编辑,可在保留原有字体、字号、风格的前提下,直接对图片中的文字进行增、删、改等操作。
  • 强⼤的基准性能: 在多个公开基准测试中的评估表明,Qwen-Image-Edit 在图像编辑任务上具备SOTA性能,是一个强大的图像编辑基础模型。
  • ModelScope:

    https://modelscope.cn/models/Qwen/Qwen-Image-Edit

    Hugging Face:

    https://huggingface.co/Qwen/Qwen-Image-Edit

    GitHub:

    https://github.com/QwenLM/Qwen-Image

    Qwen-Image-Edit的一大亮点在于其强大的语义与外观双重编辑能力。所谓语义编辑,是指在保持原始图像视觉语义不变的前提下,对图像内容进行修改。

     

AudioGenie – 腾讯AI Lab推出的多模态音频生成工具

AudioGenie是什么

AudioGenie是腾讯AI Lab团队推出的多模态音频生成工具,能从视频、文本、图像等多种模态输入生成音效、语音、音乐等多种音频输出。工具采用无训练的多智能体框架,通过生成团队和监督团队的双层架构实现高效协同。生成团队负责将复杂的输入分解为具体的音频子事件,通过自适应混合专家(MoE)协作机制动态选择最适合的模型进行生成。监督团队则负责时空一致性验证,通过反馈循环进行自我纠错,确保生成的音频高度可靠。

AudioGenie建立了全球首个针对多模态到多音频生成(MM2MA)任务的基准测试集MA-Bench,包含198个带有多类型音频注释的视频。在测试中,AudioGenie在9项指标、8项任务中均达到或接近最先进水平,尤其在音质、准确性、内容对齐和美学体验方面表现出色。

AudioGenie

AudioGenie的主要功能

  • 多模态输入与多音频输出:支持从视频、文本、图像等多种模态输入,生成音效、语音、音乐等多种音频类型。
  • 无训练多智能体框架:采用双层架构,生成团队负责任务分解和动态模型选择,监督团队负责验证和自我纠错,确保输出的可靠性。
  • 精细化任务分解:将复杂的多模态输入分解为具体的音频子事件,精确标注音频类型、起止时间和内容描述,形成结构化的生成蓝图。
  • 试错与迭代优化:采用基于“思维树”的迭代优化流程,系统会生成候选音频,由监督团队从质量、对齐度、美学等维度进行评估,若存在瑕疵则自动触发修正或重试流程,直至输出满足要求。

AudioGenie的技术原理

  • 双层多智能体架构:采用生成团队和监督团队的双层架构。生成团队负责音频生成任务的分解与执行,监督团队则负责验证输出的时空一致性并提供反馈以优化生成结果。
  • 自适应混合专家(MoE)协作:根据不同的音频子任务,动态选择最适合的模型进行生成,并通过专家间的协作修正机制优化生成方案,提高生成质量和效率。
  • 无训练框架:采用无训练的多智能体系统,避免了传统训练方法中数据稀缺和过拟合的问题,提高了系统的泛化能力和适应性。
  • 时空一致性验证:监督团队通过反馈循环验证生成音频的时空一致性,确保生成的音频在时间和空间上与输入内容协调一致。

AudioGenie的项目地址

  • 项目官网:https://audiogenie.github.io/

AudioGenie的应用场景

  • 影视制作:快速生成与视频内容高度匹配的背景音乐、环境音效和角色配音,提升制作效率并增强观众的沉浸感。
  • 虚拟人物配音:为虚拟主播、虚拟客服等虚拟人物生成自然流畅的语音,更具表现力和真实感。
  • 游戏开发:根据游戏场景自动生成逼真的环境音效、背景音乐和角色语音,增强玩家的沉浸感和游戏体验。
  • 播客制作:依据播客内容自动生成随剧情起伏的配乐,提升播客的吸引力和专业性。
  • 广告片剪辑:快速匹配品牌调性的音效和音乐,节省制作时间和成本,提升广告的吸引力和感染力。