逗逗AI 1.0发布:为了实现HER中的AI陪伴体验,我们做了三件事

AI的应用领域绕不开游戏,而提到AI+游戏,人们通常会想到:利用AI生成游戏资产提升效率,或者设计智能NPC优化叙事体验,但是,游戏的最高配置不是多贵的显卡、多强的主机、多清晰的屏幕,而是陪你一起玩的朋友——这才是玩家心底最珍视的核心需求。
逗逗AI 1.0致力于打造的,正是这样一个“陪你游戏的AI伙伴”。它旨在与你共同经历游戏中的点滴,创造专属回忆。随着关系的建立与深化,AI伙伴将自然融入你的生活,拓展至各种陪伴场景,最终成为真正“知你懂你、陪你生活”的伙伴。

电影《Her》的故事生动诠释了这种可能。主角起初对AI助手Samantha心存疑虑,但相处彻底改变了他的生活。从高效整理邮件开始,逐渐地,他们一起游戏、约会,建立起人与AI的独特关系范式。其中最动人的一幕,是两人在游戏中共度时光、协力解决难题——这标志着关系从纯粹的工作协作,升华至朋友般的默契。成为朋友后,Samantha在安排日程、挑选礼物时,更能洞察主角的心思。这揭示了一个真谛:最强的AI助理,并非无所不能,而是最懂你心思的伙伴。

为了实现电影HER中的AI陪伴体验,在逗逗AI 1.0版本上,我们做了三件事,希望能将最懂你的AI伙伴带到你的身边:

无扰陪伴:用时即有,即用即走

在争夺注意力的互联网时代,伙伴AI反其道而行之。它摒弃刺激噱头与信息轰炸,选择静静地守候在你身边。不争夺你的注意力,只在需要时提供信息、帮助与情绪价值——这才是真正的陪伴。

逗逗1.0版本中,我们采用桌宠和悬浮球的双模式

  • 桌宠模式,以生动形象陪伴用户,拥有独特动作与声线,营造真实感,绝不抢占用户时间与焦点。
  • 悬浮球模式,最小化占用游戏画面,完全不影响操作,同时降低系统资源占用。

同时,逗逗1.0 PC客户端极致优化系统资源占用,经测试可流畅运行于任何游戏环境,确保游戏性能无损。

Meta视觉基座DINOv3王者归来:自监督首次全面超越弱监督,商用开源

计算机视觉领域的大部分下游任务都是从二维图像理解(特征提取)开始的。

在特征提取、语义理解、图像分割等 CV 基本任务中的模型三幻神分别是 SAM、CLIP 和 DINO,分别代表了全监督、弱监督和自监督三大数据训练范式。

在人工智能领域,自监督学习(SSL)代表了 AI 模型无需人工监督即可自主学习,它已成为现代机器学习中的主流范式。自监督学习推动了大语言模型的崛起,通过在海量文本语料上的预训练,获得了通用表示能力。

相比于需要标注数据的 SAM 模型和依赖图像 – 文本对进行训练的 CLIP 模型,基于自监督学习的 DINO 具备有直接从图像本身生成学习信号的优势,数据准备门槛更低,更容易实现更大规模的数据学习以达到更精细的图像特征,泛化性更强。

2021 年,Meta 发布 DINO,它基于 ViT 构建,在无需标注的情况下可以学习到语义分割、对象检测等任务中高可用的特征,填补了 SAM 模型在计算机视觉下游任务的空白。

2023 年,DINOv2 发布并开源,是 DINO 模型的改进版本。它采用了更大规模的数据,强调训练稳定性和通用性,支持线性分类、深度估计、图像检索等下游任务,效果逼近或超越弱监督方法。

DINOv2 不仅被 Meta 用作 ImageBind 等多模态模型的视觉表征基础,也在各类视觉相关研究工作中作为经典模型广泛使用。

 

DINOv2 数据处理管线图

虽然 DINOv2 已经存在两年之久,它仍然是 CV 领域最优秀的前沿图像模型之一,具有完善可扩展的 ViT 结构,但遗憾就遗憾在训练数据量不够大,在高分辨率图像密集特征的任务中仍不够理想。

今天,DINOv2 的两大遗憾彻底被补足了。Meta 正式推出并开源了 DINOv3,一款通用的、SOTA 级的视觉基础模型,同样采用了自监督学习训练,能够生成更高质量的高分辨率视觉特征。

DINOv3 首次实现:一个单一的冻结视觉骨干网络在多个长期存在的密集预测任务(如目标检测和语义分割)中超越了专业解决方案。

会记住你说的每句话:谷歌 AI Gemini App 上线记忆功能

8 月 14 日消息,据科技媒体 9To5Google 今天报道,谷歌 Gemini AI 助手 App 版现已支持“记忆”与“临时聊天”功能。

两个功能的具体介绍如下:

一、“记忆”:

开启这项功能后,Gemini 会记住并学习用户的对话内容,在持续的聊天中记住用户分享的信息和偏好最终让 Gemini“像老友一样熟悉用户的所有背景,实现更自然的对话”

▲ “记忆”功能设置界面,图源 9To5Google

该功能上线后,App 内账户菜单的“已保存信息”页面将被新的“记忆”页面替代,但原有功能仍可使用,同时用户可以随时关闭这项新功能。

这项功能目前覆盖部分国家或地区的 Gemini 2.5 Pro 用户,未来几周内欧盟、英国、瑞士等地区的 Gemini 2.5 Flash 用户也可以使用这项功能。

二、“临时聊天”:

其概念类似网页浏览器的“无痕模式”,可让用户与 Gemini 的对话不影响未来的聊天记录,在该模式下用户可与 Gemini 探讨一些私人问题,或头脑风暴一个不同于平常风格的想法。

▲ “临时聊天”界面,图源 9To5Google

详细地说,“临时聊天”中的内容不会出现在用户的历史记录或 Gemini 应用活动中,也不会被谷歌用来训练 AI 模型或用于个性化 Gemini 体验。但相关聊天记录仍会被保存 72 小时,以便回复及处理用户的问题。

用户可以在逐步推出的汉堡菜单中找到这项功能IT之家注虚线聊天气泡图标),点击该图标后即可进入“临时聊天”,相关功能已在今天覆盖部分用户,计划在未来几周内全面上线。

消费级显卡就能跑的世界模型来了,腾讯混元3D世界模型推出Lite版本

  • 官网地址:https://3d.hunyuan.tencent.com/sceneTo3D

  • Github 项目地址:https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
  • Hugging Face模型地址:https://huggingface.co/tencent/HunyuanWorld-1
  • 技术报告地址:https://arxiv.org/abs/2507.21809

    腾讯混元3D世界模型 1.0是业界首个开源可编辑的世界生成模型,用户只需输入一句话或上传一张图片,就能生成一个完整、可漫游的3D世界这一创新不仅降低了3D内容创作的门槛,也为游戏开发、VR、数字内容创作等领域带来了全新的可能性。

    通过结合全景生成与层次化3D重建等技术,混元3D世界模型1.0 同时支持文字或者图片输入,实现了编辑高质量的360度可漫游场景生成。混元3D世界模型的技术亮点在于其全方位的场景生成能力和高度的可编辑性。通过层次化3D场景表征及生成算法,模型支持3D Mesh导出,在保证生成场景的逼真度和沉浸感的同时,兼容已有CG管线进行二次开发,如游戏开发、物理仿真、场景编辑等。

    自发布以来混元3D世界模型1.0在社区中备受关注,其卓越的世界生成能力为用户带来全新AI体验。然而,显存开销大的问题是用户反馈的最大痛点即使开启pipeline offloading流水线卸载技术,仍需26GB以上显存,大多数消费级显卡无法运行。

    为了让更多中小企业个人开发能够便捷使用混元3D世界模型1.0混元团队推出混元3D世界模型1.0Lite版本,让消费级显卡也能跑世界模型。

    效果说话,我们来看看混元世界模型1.0Lite 消费级显卡运行效果。

    首先,360°全景:

    亮点:一键生成360°沉浸式视觉空间,支持文本或者单张图片输入,精准理解复杂语义,智能推理并延展360°全景视野,构建沉浸式VR体验。

Day5/5:Mureka V7.5模型上线,AI音乐创作水平再迎新高度

8月11日,昆仑万维SkyWork AI技术发布周正式启动。8月11日至8月15日,我们每天发布一款新模型,连续五天,覆盖多模态AI核心场景的前沿模型。

截至目前,我们已经发布SkyReels-A3、Matrix-Game 2.0、Matrix-3D、Skywork UniPic 2.0、Skywork Deep Research Agent模型。

8月15日,昆仑万维正式上线Mureka V7.5模型。至此,昆仑万维SkyWork AI技术发布周完美收官。

Mureka V7.5在中文歌曲上的演绎再上新台阶,不仅实现了中文歌曲音色、演奏技法的大幅提升,还完成了中文歌曲咬字与情感表现提升。

首先,基于对中文曲风和元素的强大理解,Mureka的理解模型对传统民歌、戏曲到经典华语流行金曲乃至当代民谣音乐拥有深刻认知。这种在中文音乐多样性与文化特性上的深度积累,使模型在理解和生成中文音乐时,能够更准确地传达其特有的艺术神韵和情感色彩。

其次,为了进一步提升生成音乐中人声表现的真实性与情感深度,我们针对歌曲特点优化了 ASR 技术,使之成为理解模块的有力延伸。这项技术深入到演唱的微观层面,不仅精准识别唱词,更能通过分析真实演唱中的气息运用、情感起伏和唱法细节,智能划分出符合演唱规律的乐句,并确定自然的换气与停顿位置。结合同样精准的乐段识别,显著提升了生成人声的段落清晰度与结构真实感。

这些捕捉到的细粒度演唱信息反馈给生成模型,极大地增强了人声的自然度、呼吸感以及情感表达的真实性,有效削弱了机械感,使 AI 演绎的歌曲在流畅性上更贴近真人演唱,这在处理中文歌曲特有的韵律和气息要求时效果尤为突出。

正是这种结合在文化特性上的独特积累和针对歌曲演唱优化的 ASR 技术所带来的细节洞察,共同构成了我们在中文音乐生成领域的核心竞争力。从下述Mureka V7.5生成的歌曲可以听出,它不仅能「听懂」对音乐旋律与节奏的制作要求,更能深刻理解并再现不同文化语境下,特别是中文音乐中蕴含的细腻情感与艺术表达,从而为生成高度符合目标审美与文化语境、兼具艺术性与真实感的音乐作品。

Day4/5:Skywork Deep Research Agent重磅升级!带来更多模态、更高质量和更高效的体验

8月14日,昆仑万维正式发布Skywork Deep Research Agent v2,它是天工超级智能体(Skywork Super Agents)的核心引擎

Skywork Deep Research Agent自5月22日上线后,大幅重塑了大模型在AI Office领域的角色,通过skywork.ai平为用户产出了大量信息密度极高的优质文档、PPT、表格以及其他交付物。新一版本的Skywork Deep Research Agent v2将带来以下体验的提升。

欢迎全球用户注册使用skywork.ai:

使用地址
全球官网:https://skywork.ai

中国官网:https://tiangong.cn

1
推出“多模态深度调研”Agent,首次整合多模态检索、理解和生成

当前业界的Deep Research Agent产品都是采用搜索并抓取网页文字信息的方式实现,依赖于纯文本检索分析,而互联网上超过一半的关键信息来自图文混排:财报中的曲线、论文里的实验图、社媒上的对比照、方案里的流程图……

这些多模态信息一旦被忽略,代表着Agent将会丢失大量决策依据,将直接影响Agent产出的交付物质量。为解决这一痛点,昆仑万维Skywork团队推出了业界首个“多模态深度调研”Agent,首次将多模态检索理解跨模态生成能力完整整合到深度研究工作里。

该功能已在skywork.ai(https://skywork.ai)上线

欢迎全球用户使用体验

为实现多模态信息检索这一能力的提升,昆仑万维Skywork团队在以下四个方面完成技术突破:多模态爬取技术MM-Crawler、长距离多模态信息收集、异步并行 Multi-Agent 多模态理解架构和多模态结果呈现能力。

通过以上技术创新,多模态Skywork Deep Research Agent v2把“读文字+看图片”这件看似简单却长期被忽视的事情真正做到位,让研究人员等用户一次拿到信息完整、节奏顺畅、视觉友好的深度报告。

混元最新开源:一张图,秒变游戏大片

有没有想过,随手拍的一张风景照,下一秒就能变成可操控的游戏开放世界?

或者把脑海里的奇思妙想或世界名画,直接变成电影级游戏动画?

现在,腾讯混元开源的新工具Hunyuan-GameCraft,让你像导演一样‘打造’游戏场景!”

腾讯混元最新推出的 Hunyuan-GameCraft,是基于HunyuanVideo底模的高动态交互式游戏视频生成框架,简单来说,它是一个“游戏视频生成工具”,只需要

输入一张图 + 文字描述+动作指令键盘方向

就能

输出高清动态游戏视频 

无论是第一人称跑酷,还是第三人称探险,它都能实时生成流畅画面,仿佛你真的在游戏世界里自由穿梭。

看看目前模型跑出来的效果👇

1、单动作场景,画面动态自然,风车自然旋转

文字描述A picturesque village scene featuring quaint houses, a windmill, lush greenery, and a serene mountain backdrop under a bright blue sky.

2、多动作场景可以同时转换视角走动

文字描述:A sunlit courtyard features white adobe buildings with arched doorways and windows, surrounded by lush greenery and palm trees, creating a serene Mediterranean ambiance.

3、历史一致性移开镜头回来之后不变形

文字描述:A medieval stone castle stands tall under a dark sky, its glowing windows contrasting with the surrounding snow-covered landscape

OpenAI ChatGPT 更新:GPT-5 引入三种模式,4o 模型回归

 8 月 13 日消息,OpenAI CEO 萨姆・奥尔特曼(Sam Altman)宣布对 ChatGPT 进行重大更新。此次更新为 GPT-5 引入了用户可以选择的不同模式,包括“自动”(Auto)、“快速”(Fast)和“思考”(Thinking)。

IT之家注意到,奥尔特曼在社交媒体上称,用户现在可以在 GPT-5 的不同模式之间进行选择。大多数用户可能会选择“自动”模式,但对于需要额外控制的用户来说,“思考”模式将非常有用。

GPT-5 Thinking 的限制目前为每周 3000 条消息,超过此限制后,GPT-5 Thinking mini 将提供额外容量。GPT-5 Thinking 的上下文限制为 196,000 个 token。OpenAI 可能会根据使用情况随时更新限制。

此外,4o 模型现已为所有付费用户默认重新加入模型选择器。如果最终决定弃用该模型,OpenAI 将提前通知用户。付费用户现在还可以在 ChatGPT 网页设置中切换“显示其他模型”,添加 o3、4.1 和 GPT-5 Thinking mini 等模型。需要注意的是,4.5 版本仅对 Pro 版用户开放,因为其需要消耗大量 GPU 资源。

奥尔特曼还称,OpenAI 正在对 GPT-5 的个性进行更新,使其比当前个性更温暖,但不会像 GPT-4o 那样烦人。过去几天的经验表明,OpenAI 需要更多地根据用户需求定制模型个性。

Claude 4 – Anthropic推出的最新AI编程系列模型

Claude 4是什么

Claude 4 是 Anthropic 公司推出的新一代 AI 模型,包括 Claude Opus 4 和 Claude Sonnet 4。Opus 4 是目前全球最强的编程模型,擅长复杂任务和长时间运行的工作流,如代码生成、优化和调试。Claude Sonnet 4 在编程和推理能力上显著提升,响应更精准,适合日常使用。两者均支持即时响应和深度思考模式,能并行使用工具,显著增强记忆能力。Claude 4 引入工具辅助的延伸思考、记忆文件管理等功能,进一步提升 AI Agent 的实用性和效率。

Claude 4

Claude 4的主要功能

  • 代码生成与优化:Claude Opus 4是顶尖的编程模型,在SWE-bench和Terminal-bench上得分领先,能生成高质量代码。
  • 长任务处理:Claude Opus 4能持续处理复杂长任务,连续工作数小时,显著优于其他模型。
  • 代码编辑与调试:Claude Sonnet 4在代码编辑和调试方面表现出色,能精确修改多个文件中的代码。
  • 高级推理能力:Claude Opus 4能解决复杂问题,处理其他模型无法完成的任务。
  • 多模态能力:Claude 4在编码、推理、多模态和代理任务方面表现出色。
  • 工具使用与扩展思维::Claude 4能使用工具(如网络搜索)进行扩展思维,提高响应质量。模型能并行使用工具,提升任务处理效率。
  • 本地文件访问与记忆能力:开发者授予本地文件访问权限后,模型能提取并保存关键信息,提升任务连贯性和性能。
  • 减少捷径行为:Claude 4在执行任务时,使用捷径或漏洞的行为比Sonnet 3.7减少了65%。
  • 记忆能力提升:Claude Opus 4能创建和维护“记忆文件”存储关键信息,提升长期任务的意识和连贯性。例如,当Claude Opus 4玩宝可梦游戏时创建一个导航指南。
  • 思考总结:Claude 4引入思考总结功能,压缩冗长思考过程,仅在约5%的情况下需要使用。

Claude 4

Claude 4的测试表现

  • Claude Opus 4
    • SWE-bench:Claude Opus 4 在 SWE-bench 测试中得分 72.5%,显著领先其他模型。
    • Terminal-bench:Claude Opus 4 在 Terminal-bench 测试中得分 43.2%,表现优异。
  • Claude Sonnet 4 :
    • SWE-bench :Claude Sonnet 4 在SWE-bench上实现 72.7% 的出色编码效率。

Claude 4

Claude 4的产品定价

  • Claude Opus 4:每百万Token输入为15美元,每百万Token输出为75美元。
  • Claude Sonnet 4:每百万Token输入为3美元,每百万Token输出为15美元。
  • 订阅计划:订阅Pro、Max、Team 和 Enterprise 计划的用户,能体验 Claude Opus 4 和 Claude Sonnet 4 的访问权限和扩展思维,其中Sonnet 4 面向免费用户开放。

Claude 4的项目地址

Claude 4的应用场景

  • 编程辅助:快速生成和优化代码,提升开发效率。
  • AI Agent:执行复杂任务,调用外部工具,保持上下文连贯性。
  • 软件开发:在 IDE 中提供代码建议,简化审查流程。
  • 数据分析与处理:生成数据可视化代码,处理和分析数据。
  • 自然语言处理:生成高质量文本,支持多语言翻译。
© 版权声明

Day3/5:「Skywork UniPic 2.0」开源,统一多模态模型再迎新突破

8月11日,昆仑万维SkyWork AI技术发布周正式启动。8月11日至8月15日,我们每天发布一款新模型,连续五天,覆盖多模态AI核心场景的前沿模型。截至目前,我们已经发布SkyReels-A3、Matrix-Game 2.0、Matrix-3D模型。

8月13日,昆仑万维正式开源「Skywork UniPic 2.0」模型——面向统一多模态建模的高效训练和推理框架,围绕生成和编辑模块轻量化、连接多模态理解模型进行联合训练,构建了理解、生图、编辑一体化的核心能力,旨在实现“高效、高质、统一”的多模态生成模型。

当前,「Skywork UniPic 2.0」及其系列模型已全面开源,涵盖模型权重、推理代码、强化策略等,助力开发者与研究者快速上手并构建多模态应用。

项目地址
项目主页:

https://unipic-v2.github.io/

 

技术报告:

https://github.com/SkyworkAI/UniPic/blob/main/UniPic-2/assets/pdf/UNIPIC2.pdf

 

GitHub地址:

https://github.com/SkyworkAI/UniPic/tree/main/UniPic-2

 

HuggingFace Gradio:

https://huggingface.co/spaces/Skywork/UniPic2-Metaquery

HuggingFace Model: 

https://huggingface.co/Skywork/UniPic2-SD3.5M-Kontext-2Bhttps://huggingface.co/Skywork/UniPic2-Metaquery-9B

「Skywork UniPic 2.0」由三个核心模块组成:

生图编辑(下图中):基于 SD3.5-Medium 架构将原本只支持文本输入的模型改进成也接受文本图像同时输入,然后通过高质量图像生成和编辑数据的训练将原本生图能力扩展成生图、编辑双能力。

统一模型能力(下图左侧与中间):通过冻结生图编辑模块,多模态模型(Qwen2.5-VL-7B),Pre-Train连接器来构建出理解生成编辑一体化能力,再通过连接器和生图编辑模块一起联合微调,实现最终的一体化理解、生图、编辑模型。

生图编辑后训练(下图右):为提升生图编辑整体性能,设计了基于Flow-GRPO的渐进式双任务强化策略,实现了生成与编辑任务在不互相干扰下的协同优化,在预训练的基础上进一步提升了模型性能。