全球多模态推理新标杆,GLM-4.5V正式上线并开源

多模态推理被视为通向通用人工智能(AGI)的关键能力之一,让 AI 能够像人类一样综合感知、理解与决策。其中,视觉-语言模型(Vision-Language Model, VLM)是实现多模态推理的核心基础。

今年 7 月,我们发布并开源了全球 10B 级效果最强的 VLM——GLM-4.1V-9B-Thinking。该模型以小搏大,展现了小体积模型的极限性能潜力,上线后迅速登上 Hugging Face Trending 榜首,并累计获得超过 13 万次下载。

今天,我们推出全球 100B 级效果最佳的开源视觉推理模型 GLM-4.5V(总参数 106B,激活参数 12B),并同步在魔搭社区与 Hugging Face 开源。这是我们在通向 AGI 道路上的又一探索性成果。

开源列表:
GitHub:https://github.com/zai-org/GLM-V

Hugging Face:https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102
魔搭社区:https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

在线体验:

欢迎前往 z.ai,选择 GLM-4.5V 模型,上传图片或视频,即刻体验;或前往智谱清言APP/网页版,上传图片,开启“推理模式”进行体验。

此外,在保持高精度的同时,GLM-4.5V 兼顾推理速度与部署成本,为企业与开发者提供高性价比的多模态 AI 解决方案。

API 调用价格:低至输入 2 元/M tokens,输出 6 元/M tokens
响应速度:达到 60-80 tokens/s
API 接口文档:http://docs.bigmodel.cn/api-reference

GLM-4.5V API 现已上线智谱开放平台 BigModel.cn,我们为所有新老用户准备了 2000 万 Tokens 的免费资源包。领取链接:https://zhipuaishengchan.datasink.sensorsdata.cn/t/bv

开源多模态 SOTA

GLM-4.5V 基于智谱新一代旗舰文本基座模型 GLM-4.5-Air,延续 GLM-4.1V-Thinking 技术路线,在 41 个公开视觉多模态榜单中综合效果达到同级别开源模型 SOTA 性能,涵盖图像、视频、文档理解以及 GUI Agent 等常见任务。

在多模态榜单之外,我们更重视模型在真实场景下的表现与可用性。GLM-4.5V 通过高效混合训练,具备覆盖不同种视觉内容的处理能力,实现全场景视觉推理,包括:

图像推理(场景理解、复杂多图分析、位置识别)
视频理解(长视频分镜分析、事件识别)
GUI 任务(屏幕读取、图标识别、桌面操作辅助)
复杂图表与长文档解析(研报分析、信息提取)
Grounding 能力(精准定位视觉元素)

同时,模型新增“思考模式”开关,用户可灵活选择快速响应或深度推理,平衡效率与效果。

为帮助开发者直观体验 GLM-4.5V 的模型能力,打造专属于自己的多模态应用,我们同步开源了一款桌面助手应用。

开源链接:https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App

该桌面应用可实时截屏、录屏获取屏幕信息,并依托 GLM-4.5V 处理多种视觉推理任务,日常处理如代码辅助、视频内容分析、游戏解答、文档解读等多类视觉任务,成为一个能看着屏幕和你一起工作娱乐的伙伴。我们也希望通过模型开源和API服务,赋能更多有想法的开发者,基于多模态基座模型发挥创意和想象,把过去科幻电影中的场景变为现实。

典型示例
1.视觉定位:精准识别和定位目标物体,应用潜力强大
GLM-4.5V 能够根据用户提问,精准识别、分析、定位目标物体并输出其坐标框。该能力在现实世界拥有广阔的应用场景,例如安全与质量检查、高空遥感监测分析。相较于传统的基于视觉模型的物体识别,GLM-4.5V 凭借更丰富的世界知识与更强大的语义理解能力,能够通过推理理解更复杂的定位指令。

2.前端复刻:输入网页截图或交互视频,即可复刻网页
GLM-4.5V具备强大的推理与代码生成能力,能够对上传的网页截图进行分析,并将其转化为结构化的网页代码。与简单的图像元素识别不同,GLM-4.5V能够深入理解并推断元素间的逻辑关系、布局规则和交互意图,从而生成高度准确且功能完整的网页代码。

值得注意的是,GLM-4.5V在未对视频输入进行专门训练的情况下,也能结合视频理解与代码生成能力,通过其强大的泛化能力对网页交互视频进行分析,输出相应的网页代码,成功复刻视频中展示的网页内容。

在以下示例中,GLM-4.5V能够通过分析用户浏览知乎的视频,精准识别网页中所有元素的内容、样式与布局,并还原其背后的HTML、CSS和JavaScript代码,确保运行效果与原始视频高度一致。同时,模型会分析视频帧间的动态变化,建模并实现网页交互逻辑,最终复刻出真正可交互的前端页面。此外,用户可通过圈选标记方式向模型提出修改需求,模型据此进一步优化页面,实现真正的视觉交互闭环。

3.图像识别与推理:视觉神探,精准识别图像细节并推理背景信息
GLM-4.5V具备强大的感知与推理能力。一个典型应用是:在不依赖搜索工具的情况下,模型能通过图像中的细微线索推理出背景信息。例如,上传任意风景或街拍图片后,GLM-4.5V可分析植被特征、气候痕迹、建筑风格等要素,精准推测图片拍摄地点及大致经纬度。

为验证GLM-4.5V的地点识别能力,我们让其参与”图寻游戏”全球积分赛,与国内两万余名顶尖人类玩家同台竞技。该游戏要求玩家在限定时间内,根据风景街景图片推测拍摄地的经纬度,比拼速度与精度。

– 参赛16小时:GLM-4.5V击败99%的人类玩家

– 参赛7天:模型攀升至全球第66名

这一结果充分证明了GLM-4.5V在复杂视觉推理任务中的卓越表现。

4.复杂文档深度解读: 不止擅长信息提取、总结和翻译,也能表达自己的见解
GLM-4.5V可以阅读长达数十页、含有大量图表的复杂长文本,能够对文本进行总结、翻译、图表提取等操作;此外,还能在给定信息的基础上输出自己的”观点”。与传统的OCR信息提取+文本模型解读的方式不同,GLM-4.5V会像人类一样,以视觉方式读取文档中的每一页图片,避免了信息提取过程中的错误传递,实现了文字与图像的同时理解,因此对于图表、表格等视觉化、结构化信息的保留和解读会更加准确。

例如,我们可以给GLM-4.5V上传一份图文并茂的技术报告,让它翻译并解读其中的技术亮点。

5.强大的 GUI Agent 能力,为 Agent 任务打基础
基于强大的视觉推理能力,GLM-4.5V 能够识别和处理电子屏幕画面,在 GUI 环境中进行对话问答、图标定位等任务。同时,我们将 GUI Agent 的能力融合到基座模型,模型能够结合当前 GUI 界面与用户指令输出相应操作,配合相应的 Agent 软件能够完成复杂的 GUI Agent 任务,为广大 Agent 项目提供可靠的基座模型支持。

例如,我们可以给 GLM-4.5V 传入一张陈列了数十个商品的电商页面,让它识别商品图中的折扣价格与标题中的原价,并且计算出折扣比例。

技术细节

GLM-4.5V 由视觉编码器、MLP 适配器和语言解码器三部分组成,支持 64K 多模态长上下文,支持图像与视频输入,并通过三维卷积提升视频处理效率。模型采用双三次插值机制,有效增强了模型对高分辨率及极端宽高比图像的处理能力与稳健性;同时,引入三维旋转位置编码(3D-RoPE),显著强化了模型对多模态信息的三维空间关系的感知与推理能力。

GLM-4.5V 采用三阶段策略:预训练、监督微调(SFT)和强化学习(RL)。其中,在预训练阶段,我们结合大规模图文交错多模态语料和长上下文内容,强化了模型对复杂图文及视频的处理能力;在 SFT 阶段,我们引入了显式“思维链”格式训练样本,增强了 GLM-4.5V 的因果推理与多模态理解能力;最后,RL 阶段,我们引入全领域多模态课程强化学习,通过构建多领域奖励系统(Reward System),结合可验证奖励强化学习(RLVR)与基于人类反馈的强化学习(RLHF),GLM-4.5V 在 STEM 问题、多模态定位、Agent 任务等方面获得全面优化。

全球首个端到端AI 3D游戏生成工具Seele AI

Seele AI 是什么

Seele AI 是全灵公司推出的全球首个端到端AI 3D游戏生成工具。Seele AI 基于大模型技术,实现从文本输入到完整3D游戏的自动化生成,支持多模态交互(文本、3D建模、物理引擎)。Seele AI 的核心优势在于100%自主的AI引擎,能快速生成个性化游戏(如FPS、飞行模拟等),支持应用在跨界3D设计、潮玩开发等领域。团队创始人王诗沐领衔,汇聚腾讯、英伟达等顶尖技术专家。Seele AI 致力于打造连接虚拟社交与经济生态的AI开放世界,目标是成为下一代游戏与内容创作的革命性工具。

Seele AI的主要功能

  • AI 生成 3D 游戏:自然语言(中英文均可)自动生成可玩的 3D 游戏,如 FPS、飞行模拟等,实现零代码开发。
  • 多模态交互设计:Seele AI支持文本、3D 建模、物理引擎的无缝结合,提供沉浸式游戏体验。
  • 个性化定制:根据用户需求调整游戏场景、玩法规则及视觉效果(如“飞翔游戏”中的动态时间与场景)。
  • 端到端自动化:从概念输入到完整游戏生成全程 AI 驱动,Seele AI大幅降低开发门槛。
  • 跨界 3D 创作:Seele AI适用游戏、潮玩、IP 形象及空间装置设计,提供高自由度 3D 视觉表达。
  • 即时试玩与分享:生成后能直接在线体验,支持快速迭代与社交化传播。

如何使用Seele AI

  • 访问官网:访问 Seele AI 官网 https://www.seeles.ai/ ,注册登录账号。
  • 全球公测开放:Seele AI目前已开放全球公测,进入主页可立即体验。
  • 输入需求(自然语言描述):在官网或应用内输入文字描述(中英文均可),如:“生成一个科幻风格的FPS射击游戏。
  • AI 智能生成:Seele AI自动解析需求,结合大模型生成3D场景、角色、玩法逻辑等。
  • 预览与优化:实时查看生成效果,支持手动微调(如修改贴图、动作、物理效果)。跟AI对话优化细节。
  • 发布和分享:对生成的游戏世界感到满意,将其发布到Seele AI的社区或分享给其他人。

Seele AI

Grok 4 – 马斯克旗下xAI推出的新一代大模型

Grok 4是什么

Grok 4 是 xAI 推出的最新AI大模型,Grok 4 的推理能力相较于前代提升 10 倍。模型具备卓越的推理能力,能在 SAT、GRE 等高难度考试中接近满分,在多项基准测试中超越其他前沿模型。Grok 4 支持多模态功能,能理解主观概念、生成代码和可视化内容,在语音交互上进行重大改进。Grok 4分为两个版本,Grok 4 是单代理(single agent)版本, Grok 4 Heavy 是多代理版本(multi agents),支持四个代理同时工作,上下文窗口最高支持 256k tokens。

Grok 4的主要功能

  • 卓越的推理能力:在 SAT、GRE 等高难度考试中接近满分,展现出超越人类的推理水平。
  • 多模态理解:能理解主观概念,并搜索和分析图片。
  • 信息整合与摘要:从社交媒体等渠道整合信息,提取关键事件并按时间排序。
  • 代码与可视化生成:根据科学提示生成复杂动画,例如模拟黑洞碰撞。
  • 语音交互改进:支持五种新声音,对话更流畅,情感表达更自然。
  • 复杂任务处理:在模拟经营等复杂任务中表现出色,具备强大的战略规划和执行能力。
  • 并行智能体协作:SuperGrok Heavy版本,支持多个智能体并行解决复杂问题。

Grok 4的测试表现

  • 官方测试
    • Humanity’s Last Exam:包含 2500 个跨学科专家级问题。Grok 4 Heavy 在使用工具的情况下得分达到 44.4%,若进一步优化可提升至 50.7%。
    • AIME25(数学竞赛):Grok 4 Heavy 拿到 100% 满分,碾压其他模型。
    • GPQA(研究生水平问答):Grok 4 Heavy 得分 88.9%,领先于 Gemini 2.5 Pro(86.4%)和 Claude 4 Opus(79.6%)。
    • HMMT25(高中数学竞赛):Grok 4 Heavy 得分 96.7%,远超 Gemini 2.5 Pro(82.5%)。
    • USAMO25(美国数学奥赛):Grok 4 Heavy 得分 61.9%,大幅领先于 Gemini DeepThink(49.4%)和 Gemini 2.5 Pro(34.5%)。
    • ARC-AGI(抽象推理):Grok 4 得分 15.9%,接近翻倍于之前的商业 SOTA。
    • Vending-Bench(模拟经营):Grok 4 净赚 $4694,远超 Claude Opus 4($2077)和人类玩家($844)。

反超OpenAI,百川开源大模型医疗能力登顶世界第一

今天我们正式发布开源医疗增强大模型Baichuan-M2。

OpenAI于8月6日开源两款大模型,主打部署成本超低和医疗能力最强;仅仅5天后,我们便更小尺寸模型实现医疗能力反超,在所有开源模型中,登顶世界第一。

今年1月,我们在行业内首发“AI患者模拟器”,用真实数据构造上万个不同年龄性别症状的AI患者,模拟了数百万次诊疗过程。基于该范式开源的Baichuan-M1,为行业首个医疗增强模型。

7个月后,我们升级患者模拟器并引入模型端到端强化学习,训练的Baichuan-M2在HealthBench等评测上取得更大突破。

碾压全球开源通用大模型

更低成本爆发更大性能

 

OpenAI自2024年下半年起将医疗作为模型能力提升的首要方向,投入大量人力算力精力。

今年5月,OpenAI发布权威且贴近真实临床场景的HealthBench医疗健康评测集,研究团队招募了262位医生,来自60个国家、涉及26个医学专科、精通49种语言,他们生产了48562条评价标准,其中86%是实例特定标准(针对单个对话由医生撰写),14%是共识标准。

这个包含了5000个逼真多轮医疗对话的评测集,代表了OpenAI在医疗领域重点突破的决心。

开源gpt-oss系列模型过程中,OpenAI首次将医疗作为第一重要的评测标准;发布GPT-5时,请到现场的唯一使用者是抗癌患者,医疗是大模型最有前景最具价值的方向,正成为头部企业的共识。

Baichuan-M2在HealthBench上得到60.1的高分,以32B的较小尺寸不仅反超OpenAI 最新开源模型gpt-oss120b(得分57.6),更是力压Qwen3-235B、Deepseek R1、Kimi K2等当前世界所有开源大模型。

针对医疗领域用户隐私考虑下的模型私有化部署需求,我们对Baichuan-M2进行了极致轻量化,量化后的模型精度接近无损,可以在RTX4090上单卡部署,相比DeepSeek-R1 H20双节点部署的方式,成本降低了57倍。针对国产主流芯片的开发和适配,让多数医疗机构利用现有硬件条件既可实现快速部署。

此外,面向急诊、门诊等对于交互速度要求更高的场景,基于Eagle-3架构优化的Baichuan-M2-Spec版本在单用户场景下实现了74.9%的token速度跃升。

医疗能力极大增强后,模型通用能力是否会下降?头部大模型企业主要用数学和代码数据进行强化学习,我们是首个将医疗数据用作强化学习的中国团队,同时也验证了高质量医疗数据对于模型通用能力的增长具有较高价值,M2模型在数学、指令遵循、写作等通用核心性能上不降反升,因此这个模型也可应用于医疗以外的其他领域。

医疗复杂问题比肩GPT-5
超越众多顶尖闭源大模型

在大语言模型的发展中,“知识”与“能力”是两条相辅相成但又相对独立的主线,模型在医学考试(如 USMLE)上的表现被视为衡量医疗水平的重要指标,但随着题库饱和,这类选择题或短回复的评测难以反映模型的临床实用性,医疗 AI 并不等于“刷题机器”,分数再高也不意味着在真实医疗场景中好用。

OpenAI从HealthBench整体数据中选出1000个特别困难的复杂问题作为Hard子集,用于验证模型多维度、全景化解决疑难复杂医学问题的能力。这个评测方法标准更高、尺度更严,更能全面反映模型面临“千奇百怪”复杂条件时的真实能力。

今年5月这个评测集发布时,世界上所有顶尖模型得分都没超过32分,许多前沿模型得分甚至为0。

Arora R K, Wei J, Hicks R S, et al. Healthbench: Evaluating large language models towards improved human health[J]. arXiv preprint arXiv:2505.08775, 2025.

GPT-5发布时,OpenAI特别强调,其是HealthBench Hard评测全球唯一超过32分的模型。

Baichuan-M2以34.7分成为全球第二款超过32分的模型,力压世界所有其他顶尖闭源大模型。

尽管真实医疗场景中还存在大量HealthBench Hard评测尚未包含的因素,但至少已经证明在多数医疗场景上的问答质量,GPT-5和Baichuan-M2已经超越资深医生,特别是在知识更新速度和全面性上,完全可以给人类医生强大支持。

GPT-5发布时既没有开源,也没有公布参数,无法私有化部署,无法低成本应用。相比之下,Baichuan-M2快速免费开源,成为医疗行业低成本快速应用部署世界顶尖医疗模型的唯一选择。

AI患者模拟器立功

百川智能开创强化学习新范式

 

我们的技术团队在大型验证系统(Large Verifier System)、端到端强化学习、AI患者模拟器、多类型医疗数据用于深度推理等4个方面的创新探索,是Baichuan-M2模型取得飞跃式进步的关键。

过去一年,可验证奖励强化学习(RLVR)方法被头部大模型企业广泛使用,在数学、代码领域显著提升了模型性能。我们在这一过程中认识到,提高复杂现实问题的可验证性是进一步提升模型性能的关键由此,团队构建了大型验证系统,在通用验证器之外还设计了一套全面的医学验证系统。

如果将未经过医疗强化学习的大模型比作一位医学实习生,这个系统则像一个要求极高、异常挑剔的医疗专家。它会从医疗正确性、完备性、安全性,以及对患者的友好性等多个维度,细致地评估模型的输出,指出其不足并引导模型改正,使其思维方式更贴近专业医生。

基于这个强大的验证系统,团队采用多阶段强化学习策略(Multi- Stage RL),将复杂的强化学习任务分解为几个易于管理的、分层的训练阶段,逐步引导模型能力演变。

人类医生在听取患者描述病情时,很容易分辨患者描述中的逻辑漏洞,含混不清的表达中辨别出真实病因。现实中患者几乎无法全面准确表达自己的症状,仅基于静态的病例、指南等医疗数据训练,模型无法掌握人类医生的这一能力。

为了突破这一瓶颈,我们升级迭代今年初首创的AI患者模拟器。这个模拟器使用真实病例构建的AI系统,能够模拟千差万别的患者、症状、表达,特别是包含错误噪声的表达,最大程度还原了真实医疗场景。

图片

在强化学习的多轮对话中,AI患者与AI医生快速生成数百万条贴近真实的交互信息,验证器充当裁判实时打分评估,根据打分结果模型策略动态优化,形成了一个具有规模化可监督信号的训练闭环,让训练过程与效果如“飞轮”般效率倍增。

我们还构建了一个以天为频率更新的权威医学数据库,涵盖病例、论文、文献、指南、药学、生物学、合成数据等。为防止综合能力退化,采用医学数据、通用数据、数学推理数据2:2:1的比例,并引入领域自我约束训练机制,确保模型是一个具有通识、推理等综合能力的高水平医生,避免成为只会医学知识考试的高分低能者。

(更多技术创新点详见https://www.baichuan-ai.com/blog/baichuan-M2)

这些技术探索与创新,不仅为模型医疗能力提升开创了全新路径,也为通用大模型强化学习提供了新思路新方法。

更遵循中国权威指南

更符合中国临床诊疗场景

 

在中国临床诊疗场景的问题评测中,对比GPT系列模型,Baichuan-M2展现出更明显的可用性优势。

我们从中国医学指南对齐、医疗政策适配和患者需求洞察等多个维度进行了深度优化,中国医疗机构和医生应用时,会明显感受到这一区别。

中外患者人群特点不同、医疗服务资源与优势有所差异例如,肝细胞肝癌,中国以乙肝相关肝癌为主,西方更多是酒精或丙肝相关患者,不同类型患者的手术风险不同;加上中国外科手术经验丰富、手术期管理成熟,因此在同一疾病遇到多种治疗方案时,中西方指南对于优选哪种治疗方案存在差异。

在一个具体的真实案例中,针对CNLCIIa期(BCLC B期)的肝细胞肝癌患者,M2首推在具备手术条件的情况下进行解剖性肝右叶切除手术(或根据肿瘤具体位置,可考虑扩大右半肝切除、右三叶切除等),目标是R0切除。

在国家卫健委最新发布的《原发性肝癌诊疗指南》(2024版)中,肝切除术是潜在根治性治疗,可提供最佳的长期生存获益,Baichuan-M2严格遵循这一方案。

同一病症gpt-oss-120b则建议首选经动脉化疗栓塞术(TACE),理由是符合 BCLCB 期治疗指南。

Day1/5:SkyReels-A3——形随声动,让数字人“说话”的魔法

8月11日,昆仑万维正式发布SkyReels-A3模型,基于“DiT(Diffusion Transformer)视频扩散模型+插帧模型进行视频延展+基于强化学习的动作优化+运镜可控”,其能实现任意时长的全模态音频驱动数字人创作。

当前SkyReels-A3模型已上线,欢迎登录SkyReels官网体验:

地址
SkyReels-A3项目主页:

https://skyworkai.github.io/skyreels-a3.github.io/

SkyReels 官网地址(登录后在左侧导航栏中选择Talking Avatar工具):

https://www.skyreels.ai/home

SkyReels系列开源模型地址:

https://huggingface.co/Skywork

作为音频驱动(audio-driven)人像视频生成模型,SkyReels-A3就像给任意照片或视频装上“AI声带”:

SkyReels-A3
  • 让一张照片“活”起来:上传一张人像图片,再配段语音,照片里的人就能按这段语音开口说话或唱歌;
  • 创作一段新的视频:上传一张人像图片、配段语音,再给出文字prompt,照片里的人就能按照要求的状态进行表演;
  • 给现有视频“改台词”:可以将原视频的音频换掉,人物会自动对上新的口型、表情和表演,画面依旧连贯。

SkyReels-A3模型在以下四个方向上为用户带来新体验:

  1. Text Prompt(文本提示词输入)支持画面变化;
  2. 更自然的动作交互,包括和商品的交互、说话时的手部动作等;
  3. 运镜的运用和控制更高级,让艺术场景如音乐/MV等拥有更高的艺术美感;
  4. 可以生成单分镜分钟级别视频,支持长达60秒的输出;多分镜可以支持无限时长。

例如我们输入以下图片、音频和prompt,等待几秒之后,SkyReels-A3即可生成口型、表情、动作都自然同步的视频。

苹果微信多开卡比兽_兑换码如何在TF里下载激活-卡比兽可以多开几个

苹果微信多开卡比兽_兑换码如何在TF里下载激活-卡比兽可以多开几个

苹果盗墓笔记微信多开分身是一款功能强大的软件,它允许用户在同一部手机上同时运行多个微信账号。用户只需简单操作,即可轻松解决那些需要在工作和生活之间切换不同微信账号的用户需求。内置多种消息弹目选择,全网独家备份好友数据,不丢失聊天记录,消息防撒回/拦截文字消息,快捷聊天窗口,聊天效率提升,多模式清理僵尸粉/无需群发拉群一键标记消息已读支持ios15以上系统的苹果手机和平板ipad,兼容性好,很少出现闪退

苹果鲸遇官网兑换下载教程:

1、复制苹果鲸遇官网下载链接到手机自带safari浏览器地址栏输入打开。

2、先安装步骤一的TestFlight,然后联系网站客服或者自助购买苹果鲸遇激活兑换码,

点击TF兑换安装,输入兑换码进行兑换下载苹果鲸遇微信多开分身软件。

3、兑换下载安装完成后,打开苹果鲸遇微信输入激活兑换码成功激活。

4、登陆你需要使用的微信账号,即可开始使用苹果鲸遇微信多开分身软件的各项功能。

苹果多开鲸遇兼容性好,大多数苹果微信多开软件都经过精心设计和测试,以确保与苹果设备的兼容性, 用户可以在不越狱的情况下使用这些软件,避免了因越狱带来的安全风险。

利用AI“变装”销售 侵犯著作权定罪获刑

自己呕心沥血创作的画作,被陌生人放到AI工具中,改几笔颜色,调一下背景,竟然成了他人网店里热卖的拼图。近日,北京市通州区人民法院审理了全市首例利用人工智能生成模型侵犯著作权的刑事案件,罗某等4名被告人因利用AI工具非法侵犯他人著作权,累计销售数千件“变装”拼图获利27万余元,被法院认定犯侵犯著作权罪。

据了解,2024年3月至7月间,姚某在罗某的指导下,指使AI画师利用AI制图工具,非法复制他人享有著作权的美术作品,为了规避侵权风险,姚某耍了个“小聪明”:要求AI画师对原图仅做细节上的细微修改,如调整局部颜色、线条或背景等,刻意保留原作品最核心、最具独创性的关键表达元素。姚某和罗某两人错误地认为,只要图片不是100%复制,做了些许改动,就不算侵权,企图以此钻法律的“空子”。

生成这些“高度相似”的图片后,罗某指令其实际控制的某电子商务公司,使用这些经过“微调”的图片大量生产制作拼图产品,由姚某经李某、王某合伙经营的电商店铺售出侵权拼图超过3000件,数月内非法获利27万余元。

事实上,这些图片的每一根线条、每一块色彩,都流淌着另一位创作者的心血。2024年5月,插画师张某发现自己的原创作品被“改头换面”制成拼图销售,愤而报案。北京市公安局通州分局迅速立案侦查,于同年7月将姚某、王某、李某抓获归案,罗某主动投案自首。4名被告人到案后均如实供述,并主动退缴违法所得。公安机关依法扣押了涉案手机、电脑、拼图等物证,并冻结了姚某的相关银行账户。案发后,罗某赔偿被害人张某经济损失15万元;4名被告人的亲属代为退缴违法所得共计18万余元。

通州法院近期公开开庭审理了某电子商务公司、罗某、姚某、李某、王某侵犯著作权一案,庭审过程中被告单位诉讼代表人、各被告人详细陈述案发经过,表示认罪认罚,并当庭向被害人道歉。

法院根据被告公司及各被告人犯罪的事实、性质、情节及对社会的危害程度,依照我国刑法等相关法律、司法解释,判决某电子商务公司犯侵犯著作权罪,判处罚金10万元;罗某、姚某犯侵犯著作权罪,分别判处有期徒刑一年六个月,并处罚金6万元;李某、王某犯侵犯著作权罪,分别判处有期徒刑十个月,缓刑一年,并处罚金2.5万元;涉案财物及退缴在案的违法所得,依法予以没收。

宣判后,被告公司与4名被告人均未上诉。

利用AI预设参数“图生图”难具独创性

在人工智能技术狂飙突进的今天,AI制图工具正以“一键生成”的便捷性重塑创作生态。然而,当画笔被算法替代,当灵感被数据训练,知识产权的边界也随之变得模糊。

承办法官徐莉庭后表示,根据我国刑法和著作权法相关规定,判断涉案客体是否构成作品,应当符合以下条件:具有独创性;必须属于文学、艺术和科学领域内的创作;能以一定的形式表现;体现智力成果。因此,具有“独创性”是作品的必要条件,审查作品是否具有“独创性”的关键则在于作品是否具有“最低限度的智力创造性”,即作者在创作过程中是否投入了智力劳动。

本案中,被告人利用生成式人工智能技术生成图片,将他人美术作品转换为商品拼图。拼图图片的生成仅通过生成式人工智能预设参数,即“图生图”方式生成效果,被告人未对生成的拼图图片投入智力劳动,如设置迭代步数、修改随机数种子、增加提示词内容等,对生成结果的创造性控制与贡献程度均微乎其微。因此,虽然拼图图片与原美术作品存在极小比例构成要素表达不一致,仍然应当认定其为与他人美术作品实质性相同的图片,被告公司、被告人的行为亦应认定为侵犯著作权的行为。

“本案的判决结果明晰了人工智能技术应用的合法边界,为精准有效保护知识产权、护航高质量发展提供了坚实的司法保障,也为广大创作者和技术使用者敲响了警钟,唯有尊重知识产权,遵守法律规定,才能让创作环境更加健康有序。”徐莉提醒,AI技术宛如一把双刃剑,在为创作领域开辟全新路径、提供便捷工具的同时,也暗藏诸多法律风险,无论技术如何“聪明”地模仿、修改细节,只要核心的独创表达被实质性“借用”,就踏入了法律的禁区。使用者应时刻保持警惕,增强知识产权保护意识,了解相关法律法规,让AI工具真正发挥助力作用,成为激发灵感、推进创新的得力助手,而非沦为侵权与违法的“便捷通道”,同时要学会拿起法律武器保护自己的创作成果。(记者 徐伟伦)

(法治日报)

华为即将发布AI推理领域突破性成果

【华为即将发布AI推理领域突破性成果】《科创板日报》记者获悉,华为将于8月12日在2025金融AI推理应用落地与发展论坛上,发布AI推理领域的突破性技术成果。据透露,这项成果或能降低中国AI推理对HBM(高带宽内存)技术的依赖,提升国内AI大模型推理性能,完善中国AI推理生态的关键部分。(记者 黄心怡)

万兴科技亮相中国国际动漫博览会,AI赋能国漫文创跃向新未来

万兴科技亮相中国国际动漫博览会,AI赋能国漫文创跃向新未来###

  潮梦想,新出发!8月8日,第十五届中国国际动漫博览会在东莞盛大启幕。AIGC软件A股上市公司万兴科技(300624.SZ)受邀参展,旗下高性价比AIGC视频创作平台——万兴天幕AI吸引现场观众驻足体验,成为展区亮点之一。

  左右滑动查看更多

  本届博览会以“潮梦想出发”为主题,引入40多个国家和地区的600多家企业机构参展参会,参展IP共2000多个,规模空前。

  大会现场,万兴科技线下营销中心总经理Rocky受邀发表题为《从创意火花到文化新生:AI重塑文创产业新未来》的重磅演讲,与美国动画师菲尔·尼布林克、日本M78奥特曼设计师中田和幸等国际重量级嘉宾同台,共话前沿议题,引发行业高度关注与热烈讨论。

  万兴科技线下营销中心总经理Rocky发表演讲

  中国AIGC文创产业指数显示,AIGC参与的文创营收有望在2025年突破1000亿元,并在未来十年向万亿级市场迈进。

  Rocky在演讲中指出,AI正深度融入热门IP的创作链条,与文创的碰撞不断催生全新可能。

  传统文创创作与推广常受限于3D建模难、周期长、创意同质化、产出效率低下、特效制作复杂等痛点。而AI的赋能,正在打破这些桎梏:

  灵感迸发

  提供海量风格创意,激发无限灵感

  创作“平民化”

  大幅降低专业门槛,让更多人参与内容创作

  效率革命

  将策划、创意、制作等流程大幅压缩至分钟级,创意视频制作成本单条可低至几毛

  为持续推动AI赋能创意,万兴科技已战略布局AI音视频大模型,此前已正式发布万兴天幕音视频多媒体大模型2.0。

  作为中国首个垂类音视频多媒体大模型,万兴天幕2.0聚焦数字创意场景,支持文生视频、图生视频等百亿级参数训练,为普通创作者、专业创作者和企业用户提供从灵感到成片的一站式音视频多媒体创作解决方案。

  万兴天幕创作广场

  面向专业创作者的更真实可控的Web端高性价比AIGC视频创作平台

  万兴天幕AI

  面向普通创作者的低门槛高效能的移动端AIGC视频创作工具

  万兴天幕创作引擎

  面向开发者和企业用户,提供视频/图像/音频三大解决方案,开放API并支持MCP协议

  万兴科技不仅在技术前沿探索,更积极推动AI在文化传承中的应用。近日,在深圳经济特区即将迎来45周年纪念日(8月26日)之际,万兴科技携手深圳广电,以深圳沙头角三百年历史的鱼灯舞为原型,运用万兴天幕制作了一条AI短片,让科技与艺术完成了一场跨时空的对话。

  短片上线后迅速登榜微博同城热搜TOP5,引发广泛关注,话题热度持续攀升!

聚焦AI教育核心痛点 沉浸式课程重构儿童AI学习新场景丨新经济观察

封面新闻记者 付文超
当 AI 成为像水、电一样的时代基础设施,“如何让孩子与 AI 共成长” 已成为教育行业的核心命题。随着人工智能时代到来,少儿AI启蒙已成教育新刚需,家长对相关教育的重视程度持续提升,但市场上兼具趣味性与实用性的少儿AI启蒙课程仍显稀缺。
当前儿童的 AI 接触,或停留于碎片化工具使用,或偏向成人化技术讲解。少儿数字阅读品牌叫叫于8月8日推出的《AI 启蒙与应用》课程首次为孩子们搭建了完整的 AI 认知体系:从技术基础(如数据、算法的简单原理)到生活应用(AI 辅助学习、解决日常问题),再到价值观(合理用 AI、区分人机协作边界),层层递进、逻辑清晰。
业内认为,《AI 启蒙与应用》课程的推出,为市场提供了新的解决方案,是行业首款具有连续完整世界观的、沉浸式的少儿 AI 启蒙教育产品,用“完整世界观 + 角色扮演” 的模式重构 AI 学习场景。
上海交通大学出版社西南运营中心总监、编审段悟吾表示:“我们坚信好的儿童读物既要传递知识更要塑造思维,这正是我们对优质启蒙教育的践行。期待更多孩子由此爱上探索、学会思考,成长为懂科技、有人文温度的未来主人。”
在少儿AI教育领域,“教什么”固然重要,但“怎么让孩子学得会、用得上”更是核心难题。突破这一难题,少不了对用户的深度洞察和研究。据透露,《AI启蒙与应用》共历经了三轮用户调研。在调研过程中,团队发现了一个共性痛点:5—9岁年龄段的孩子使用AI时普遍倾向于用“单个词或短句”提问,关键词模糊导致AI无法准确理解。
对成年人来说,向AI提问或许是一件稀松平常的事情。但却鲜有人能意识到,成人和儿童的认知水平存在较大差异,很多对AI充满了探索兴趣的孩子,正是卡在了“如何正确地提问”这第一步。叫叫研发团队经多轮测试与讨论总结出“黄金提问三步法”,引导孩子以“明确身份—说明需求—深化探索”的逻辑与 AI 互动,解决低龄儿童提问模糊、AI 无法准确响应的问题。
业内人士认为,在技术快速迭代的今天,教育的目标不再是简单的知识传递,而是培养孩子适应未来的能力——探索精神、创新思维,以及在快乐中主动学习、终身学习的能力与习惯。阅读是学习的根基,能点燃孩子对世界的好奇心,培养共情力、创造力与批判性思维,帮助孩子找到探索的自驱力;而AI则是为这份好奇心插上的翅膀,带着孩子拓展学习边界,更好地应对未来的挑战。