WebShaper – 阿里通义推出的AI训练数据合成系统

WebShaper是什么

WebShaper 是阿里巴巴通义实验室推出的创新的 AI 训练数据合成系统。通过形式化建模和智能体扩展机制,为 AI 智能体(Agent)的训练提供了高质量、可扩展的数据。WebShaper 首次引入了基于集合论的“知识投影”(Knowledge Projection, KP)概念,通过 KP 的交集、并集和递归操作,构造复杂的问题结构,精准控制推理路径和任务复杂度。WebShaper 的 Expander 智能体能从简单的“种子问题”出发,逐步扩展成复杂的推理任务,让 AI 自己“出题”。训练策略结合了监督微调(SFT)和 GRPO 强化学习,使模型在复杂信息检索任务中表现出色。

WebShaper

WebShaper的主要功能

  • 形式化建模:WebShaper 首次提出了基于集合论的 IS(信息搜寻)任务形式化建模方法。通过“知识投影”(Knowledge Projection, KP)将复杂的信息搜寻任务分解为多个集合操作(如交集、并集、递归操作)。每个 KP 是一个包含特定实体的集合,通过这些操作可以构造出复杂的问题结构,精准控制推理路径和任务复杂度。
  • 智能体扩展机制:WebShaper 的一大创新是让 AI 自己“出题”。通过 Expander 智能体,系统从一个简单的“种子问题”开始,逐步扩展成复杂的推理任务。Expander 智能体调用搜索、摘要、验证等工具,逐步构造出更复杂、逻辑清晰的问题,并验证答案的正确性。确保了推理链条清晰,任务结构可控。
  • 高质量数据生成:WebShaper 通过形式化建模和智能体扩展机制,生成的训练数据不再是“靠猜题”,而是可控、可解释、可扩展的高质量任务。突破了预检索数据的边界,实现了更广泛的任务类型、能力激发和知识覆盖,减少了数据合成中的错误和冗余信息。
  • Agent 训练策略:WebShaper 采用监督微调(SFT)和 GRPO 强化学习的组合策略,让 AI 智能体在模糊、多跳信息中逐步掌握推理与检索能力。训练从高质量的训练轨迹开始,通过奖励机制引导模型进行多步推理,避免“走捷径”或“猜答案”。

WebShaper的技术原理

  • 形式化驱动框架:WebShaper 采用集合论对信息检索任务进行系统形式化,核心是“知识投影”(Knowledge Projections, KP)概念。KP 是基于特定关系的实体集合,
  • 知识投影操作
    • R-并集:用于处理不确定性条件,例如“2000-2010年参赛的球员”可以通过并集操作表示。
    • 交集:用于处理多条件约束,例如“2000年参赛且90年代出生的球员”。
  • 任务扩展机制:WebShaper 通过“种子任务”开始,利用扩展器(Expander)逐步扩展问题复杂度。扩展器基于形式化框架,结合检索和验证工具,将简单问题扩展为复杂问题,确保逻辑一致性和任务难度。
  • 数据合成与训练:生成的复杂问题被转换为训练数据,通过监督微调(SFT)和强化学习(如 GRPO 算法)进行模型训练,提升模型在复杂信息检索任务中的推理能力。

WebShaper的项目地址

  • Github仓库:https://github.com/Alibaba-NLP/WebAgent
  • HuggingFace模型库:https://huggingface.co/datasets/Alibaba-NLP/WebShaper
  • arXiv技术论文:https://arxiv.org/pdf/2507.15061

WebShaper的应用场景

  • 文献整理与分析:WebShaper 可以帮助研究人员快速收集和整理相关文献,进行跨学科的知识发现。
  • 市场调研:WebShaper 可以用于市场调研、竞争分析和投资决策支持。企业分析师可以让 AI 系统自动收集行业数据、分析市场趋势、评估竞争对手的策略。
  • 智能学习助手:WebShaper 可以成为智能学习助手,帮助学生进行深度学习和研究性学习。
  • 生活决策:WebShaper 可以在出行规划、健康查询、生活决策等场景下,即开即用,为用户提供个性化的信息支持。
  • 医疗信息查询:WebShaper 可以帮助用户查询医疗健康信息,提供专业的医疗建议和健康咨询

Skywork UniPic – 昆仑万维开源的多模态统一预训练模型

Skywork UniPic是什么

Skywork UniPic 是昆仑万维开源的多模态统一预训练模型,具备图像理解、文本生成图像及图像编辑三大核心能力。模型基于自回归范式,融合 MAR 编码器和 SigLIP2 主干,构建轻量级架构,用 1.5B 参数规模实现高性能,逼近大模型效果。模型基于渐进式多任务训练和优化策略,确保在理解、生成和编辑任务上的卓越表现,支持在消费级显卡上流畅运行,为开发者提供高效、实用的多模态解决方案。

Skywork UniPic

Skywork UniPic的主要功能

  • 图像理解:基于文本提示理解图像内容,完成图文匹配、问答等任务。模型能精准地捕捉图像的语义信息,实现对图像的深度理解。
  • 文本到图像生成:根据用户输入的文本提示,模型能生成高质量的图像。
  • 图像编辑:用户提供参考图像和编辑指令,模型根据指令对图像进行修改,例如替换图像中的元素、调整风格等,支持多种复杂的编辑操作。

Skywork UniPic的技术原理

  • 自回归架构:模型延续 GPT-4o 的自回归范式,基于序列化的方式处理图像和文本数据,确保生成和理解任务的高效性。
  • MAR 编码器:在图像生成路径中,用 MAR 编码器作为视觉表征基础,基于掩码自回归的方式逐步生成图像的 patch,实现高质量的图像生成。
  • SigLIP2 主干:在图像理解路径中,引入 SigLIP2 主干网络,专注于语义信息的提取,提升模型对图像内容的理解能力。
  • 渐进式多任务训练:模型基于渐进式多任务训练策略,先专注于单一任务(如文本生成图像),待收敛后逐步引入理解与编辑任务,避免多任务早期相互干扰,确保模型在不同任务上都能达到顶尖性能。
  • 数据与奖励模型优化:用约亿级规模的精选预训练语料和数百万级任务精调样本,同时构建 Skywork-ImgReward 和 Skywork-EditReward 奖励模型,用在筛选高质量数据和评估生成与编辑任务的质量。

Skywork UniPic的项目地址

  • GitHub仓库:https://github.com/SkyworkAI/UniPic
  • HuggingFace模型库:https://huggingface.co/Skywork/Skywork-UniPic-1.5B
  • 技术论文:https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf

Skywork UniPic的应用场景

  • 创意设计与广告制作:广告公司根据文案快速生成创意图像,为新产品设计吸引人的宣传海报,大幅缩短设计周期,提升工作效率。
  • 教育与在线学习:在线教育平台借助该模型根据教学内容生成直观图像或动画,帮助学生更好地理解复杂知识点,例如将历史事件转化为生动场景图,增强学习趣味性。
  • 游戏开发:游戏开发者输入剧情描述,让Skywork UniPic生成游戏场景和角色设计图,加速开发流程,为美术设计提供创意参考,提升游戏视觉效果。
  • 文化遗产保护:博物馆修复文物图像或根据历史文献复原古代场景,如重现古代丝绸之路的繁华景象,帮助观众更直观地了解历史,增强文化传承效果。
  • 智能家居与物联网:智能家居系统根据用户语音指令生成相应场景图像,如温馨客厅场景,为用户提供直观的场景预览和定制服务,提升用户体验。

无影AgentBay – 阿里云推出的云端Agent开发平台

无影AgentBay是什么

无影AgentBay是阿里云推出的提供多模态云端运行环境和专家Agent平台,支持浏览器、桌面、移动端、代码的自动化与远程控制。平台具备视觉理解、自然语言控制等AI技能,能无缝切换任务,调用云上算力。仅需三行代码即可接入,集成云上沙箱、数据持久化和企业级安全等核心能力。无影AgentBay适用科研、金融、教育、医疗等多场景,助力开发者高效创新,推动智能体全场景应用。

无影AgentBay

无影AgentBay的主要功能

  • 多系统支持:兼容Windows、Linux、Android等主流系统,支持桌面、移动、浏览器、代码空间等多种应用场景。
  • AI技能集成:具备视觉理解、自然语言控制、任务解析等AI能力,支持多模态输入与智能决策。
  • 云上沙箱环境:提供安全隔离的沙箱环境,覆盖多系统和多应用层,支持Agent自动化应用。
  • 数据持久化:支持状态和内存级别的持久化,确保任务切换时状态连续,资源按需加载,无需重启。
  • 企业级安全:采用数据加密传输和权限严格隔离,确保“本地环境零侵入”,为用户和厂商提供双重安全保障。
  • 简单接入与扩展:提供API、SDK和MCP等多种接入方式,支持一键配置和快速集成,降低开发门槛。
  • 高性能算力:依托阿里云全球基础设施,提供强大的GPU算力支持,满足复杂任务需求。

如何使用无影AgentBay

  • 登录阿里云无影控制台:访问无影AgentBay官网:https://www.aliyun.com/activity/wuying/aiagent,点击前往产品控制台。按提示完成注册和登录。
  • 申请API Key和MCP配置描述:在无影AgentBay控制台中,找到“服务管理”选项。按照提示申请API Key,同时获取MCP配置描述,用于后续的配置步骤。
  • 配置MCP Server
    • 在MCP Host侧一键配置无影MCP Server。
    • 在无影AgentBay平台左侧导航栏中找到服务管理,并查看API Key。
    • 点击配置资源,在镜像下拉列表中选择一个镜像。
    • 在MCP信息右上角点击复制代码。
  • 安装到本地:打开Cursor设置面板,进入MCP部分。在MCP Servers面板上,点击右上角的“添加全局MCP服务器”。把刚才复制的代码粘贴进打开的mcp.json文件中。
  • 测试并完成配置:保存mcp.json文件中的配置,关闭设置面板。在Cursor中测试连接,确保MCP Server配置正确且能正常工作。
  • 开始使用无影AgentBay:配置完成后,开始使用无影AgentBay进行各种任务,如代码运行、网页浏览、数据分析等。在Cursor中,能添加新的全局MCP服务器,进行进一步的配置和使用。

无影AgentBay的应用场景

  • 金融分析:实时监控市场动态,为金融分析提供多环境数据采集与分析能力,形成专业的智能金融分析建议。
  • 医疗诊断:平台赋予智能体医疗知识和操作能力,协助医生进行病情分析与诊断,实现病人个性化病历的长期跟踪管理。
  • 教育:用多环境操作能力,为学习者提供个性化的学习内容和实践机会,构建因材施教的数字人教师。
  • 跨境电商:无影AgentBay能帮助企业实时获取全球商品信息,打通交易流程,实现高效运营。
  • 企业数字化转型:在云端提供定制化的桌面环境,支持企业应用智能化改造,实现算力按需分配和一站式运维管理。

灵动画布 – 可灵AI推出的AI创意工作台

灵动画布是什么

灵动画布是快手可灵AI在世界人工智能大会(WAIC)期间发布的全新创意工作台功能。为创作者提供了一个多人协同创作的平台,支持最多5人同时在一个画布内进行创作,实现素材共享、实时联动和一键导出,打造更流畅的创作闭环。特别适合团队协作项目,能有效激发创意,提升创作效率。通过“灵动画布”,创作者可以将零散的创意想法转化为文本、图像或视频节点,高效串联成完整的视觉作品。

 

灵动画布的主要功能

  • 多人协同创作:支持最多5人协作,创作者可以在同一画布内进行实时创作,适合团队合作。团队成员可以共享素材,实时看到彼此的操作和修改。
  • 一站式创作流程:从创意构思到最终成品,创作者可以在一个平台上完成。
  • 一键导出功能:创作完成后,可以快速将作品导出为最终的视频或图像。
  • 无限可视化空间:创作者可以在画布上自由布局创意节点,包括文本、图像和视频。
  • 灵活的创意组织:通过节点连接,创作者可以将创意元素高效串联,形成完整的创作思路。
  • 智能创作辅助:借助AI技术,自动识别和理解创意元素,提供智能建议和优化。
  • 提升创作效率:AI可以帮助创作者快速生成初步内容,减少重复性工作。
  • 局部参考功能:精准素材引用,创作者可以指定参考图中的特定部分(如人物、场景、道具等),避免不必要的元素干扰。
  • 生成结果更可控:确保生成的内容更符合创作者的预期,提升创作的精准度。
  • 操作记录与回溯:记录创作过程中的每一步操作,方便创作者随时回溯和修改。
  • 版本管理:支持不同版本的保存和比较,确保创作的灵活性和可追溯性。

如何使用灵动画布

  • 使用平台
    • 网页端:访问可灵AI的官网,注册登录后即可在线使用。
    • 手机端:下载可灵AI APP的Android或iOS版进行使用。
  • 使用步骤
    • 创建画布:登录后,进入“灵动画布”功能界面,创建一个新的画布。
    • 添加元素:在画布上添加创意节点,包括文本、图像或视频等元素。
    • 多人协作:邀请最多4名其他用户加入画布,共同创作。团队成员可以在同一画布内实时操作,共享素材、实时联动。
    • 智能辅助:利用AI的智能辅助功能,系统会根据添加的元素和描述,自动提供创作建议和优化方案。
    • 编辑与调整:根据需要对画布上的元素进行编辑和调整,如修改文本内容、调整图像位置等。
    • 生成作品:完成创作后,点击“一键导出”功能,将画布上的内容导出为最终的视频或图像作品。
  • 注意事项
    • 灵感值:首次注册用户会获赠一定数量的灵感值,可用于生成图片及视频,每日登录也会获赠灵感值,但获赠灵感值会在24小时内过期。
    • 素材管理:合理利用画布内的素材共享功能,确保团队成员都能高效获取所需素材。

灵动画布的应用场景

  • 图像与视频生成:创作者可以在“灵动画布”上将零散的创意想法转化为文本、图像或视频节点,高效串联成完整的视觉作品。
  • 教学演示动画:教师可以用“灵动画布”快速制作教学演示动画,将复杂的知识点以更直观的方式呈现给学生。
  • 学生创意项目:学生可以用工具进行创意项目的协作创作,提升团队合作能力和创造力。
  • 产品展示视频:企业可以快速生成产品展示视频,用于广告、营销等场景,提升产品宣传效果。
  • 个人创意表达:个人创作者可以用“灵动画布”实现自己的创意想法,快速生成个性化的图像和视频。

腾讯混元3D世界模型正式发布并开源

今天,在2025世界人工智能大会腾讯论坛上,腾讯正式发布混元3D世界模型 1.0,并全面开源。

业界首个开源沉浸漫游交互可仿真世界生成模型,为游戏开发、VR、数字内容创作等领域带来了全新的可能性。

除3D世界模型外,腾讯混元披露了包括端侧混合推理语言模型、多模态理解模型游戏视觉模型在内的一系列开源计划

作为此次发布的亮点之一腾讯混元3D世界模型1.0融合全景视觉成与分层3D重建技术同时支持文字和图片输入,实现了高质量、风格多样的可漫游3D场景生成

过去需要专业建模团队数周才能搭建的3D虚拟世界,现在只需一句文字或一张图片,几分钟内即可生成。

 

对游戏开发者而言,混元3D世界模型极大简化了3D场景构建流程,只需输入简单指令,模型即可快速生成包含建筑、地形、植被的完整3D场景输出的Mesh文件可用于游戏原型搭建或关卡设计还能灵活调整前景物体、更换天空背景,满足个性化创作需求。

无建模经验的普通用户,通过混元 3D 创作引擎仅需一句话或者一张图即可快速生成360°沉浸式视觉空间,生成的场景可无缝导入Vision Pro等虚拟头显,带来沉浸式体验。

混元3D世界模型1.0的核心在于其创新的「语意层次化3D场景表征及生成算法」。

该算法将复杂3D世界解构为不同语意层级,实现前景与背景、地面与天空的智能分离,不仅生成视觉效果逼真的整体场景,还能输出标准化的3D Mesh资产,兼容Unity、Unreal Engine、Blender等主流工具。用户可对场景内元素进行独立编辑或物理仿真,无缝衔接AIGC技术与传统CG工作流。

GLM-4.5 – 智谱推出的面向推理、代码与智能体的开源 SOTA 模型

GLM-4.5是什么

GLM-4.5 是智谱推出的新一代旗舰模型,专为智能体应用打造,是首款原生融合推理、代码和智能体能力的开源 SOTA 模型。采用混合专家(MoE)架构,有两个版本:GLM-4.5(3550 亿参数,320 亿激活)和 GLM-4.5-Air(1060 亿参数,120 亿激活)。模型在多个评测基准中表现卓越,综合性能达到开源模型的顶尖水平,尤其在代码智能体场景中表现优异。支持混合推理模式,提供思考模式和非思考模式,兼顾复杂任务和即时响应需求。

参数效率翻倍,API价格仅为Claude的1/10,速度最快可达100tokens/秒。率先在一个模型中实现多能力原生融合并取得重要技术突破——单个模型同时具备强大的推理、代码、智能体等能力,已上线智谱清言和Z.ai开放免费体验。

GLM-4.5

通义万相2.2 – 阿里开源的AI视频生成模型

通义万相2.2(Wan2.2)是阿里巴巴开源的先进AI视频生成模型。共开源文生视频(Wan2.2-T2V-A14B)、图生视频(Wan2.2-I2V-A14B)和统一视频生成(Wan2.2-IT2V-5B)三款模型,总参数量达270亿。模型首次引入混合专家(MoE)架构,有效提升生成质量和计算效率,同时首创电影级美学控制系统,能精准控制光影、色彩、构图等美学效果。此次开源的5B参数紧凑视频生成模型,支持文本和图像生成视频,能在消费级显卡上运行,基于高效的3D VAE架构,实现高压缩率和快速生成高清视频的能力。目前,开发者可通过GitHub、HuggingFace等平台获取模型和代码,企业可通过阿里云百炼调用API进行应用开发,用户能在通义万相官网和通义APP直接体验。

通义万相2.2
通义万相2.2的主要功能
文生视频(Text-to-Video):根据输入的文本描述生成相应的视频内容。例如,输入“一只猫在草地上奔跑”,模型能生成一段符合描述的视频。
图生视频(Image-to-Video):根据输入的图片生成视频,模型根据图片内容生成动态场景,让图片“活”起来。
统一视频生成(Text-Image-to-Video):结合文本和图片生成视频,同时用文本描述和图片信息,生成更精准的视频内容。
电影级美学控制:通过光影、色彩、构图、微表情等控制,生成具有专业电影质感的视频。用户通过输入相关关键词(如“暖色调”“中心构图”)定制视频的美学风格。
复杂运动生成:能生成复杂的运动场景和人物交互,提升视频的动态表现力和真实感。
通义万相2.2的技术原理
混合专家(MoE)架构:引入MoE架构,将模型分为高噪声专家和低噪声专家。高噪声专家负责视频的整体布局,低噪声专家负责细节完善。在保持计算成本不变的情况下,大幅提升模型的参数量和生成质量。
扩散模型(Diffusion Model):基于扩散模型作为基础架构,通过逐步去除噪声来生成高质量的视频内容。MoE架构与扩散模型结合,能进一步优化生成效果。
高压缩率3D VAE:为提高模型的效率,通义万相2.2基于高压缩率的3D变分自编码器(VAE)。架构实现了时间、空间的高压缩比,让模型能在消费级显卡上快速生成高清视频。
大规模数据训练:模型在大规模数据集上进行训练,包括更多的图像和视频数据,提升模型在多种场景下的泛化能力和生成质量。
美学数据标注:基于精心标注的美学数据(如光影、色彩、构图等),模型能生成具有专业电影质感的视频内容,满足用户对视频美学的定制需求。
通义万相2.2的项目地址
GitHub仓库:https://github.com/Wan-Video/Wan2.2
HuggingFace模型库:https://huggingface.co/Wan-AI/models
如何使用通义万相2.2
访问官网: 访问通义万相的官方网站或下载通义APP进行体验。
选择模型:在模型选择下拉框中选择通义万相2.2。
选择体验模式:
文生视频(Text-to-Video):输入文本描述,例如“一只猫在草地上奔跑”,点击生成按钮,能看到生成的视频。
图生视频(Image-to-Video):上传一张图片,模型根据图片内容生成动态视频。
统一视频生成(Text-Image-to-Video):结合文本描述和上传的图片,生成更精准的视频内容。
调整参数(可选):用户根据需要调整视频的分辨率、帧率等参数。用电影级美学控制系统,通过输入关键词(如“暖色调”“中心构图”)定制视频的美学风格。
查看生成结果:生成的视频直接在网页上显示,用户能下载或分享生成的视频。
通义万相2.2的应用场景
短视频创作:创作者快速生成吸引人的短视频内容,用于社交媒体平台,节省创作时间和成本。
广告与营销:广告公司和品牌生成高质量的广告视频,提升广告效果和品牌影响力。
教育与培训:教育机构和企业生成生动的教育视频和培训材料,提升学习效果和培训质量。
影视制作:影视制作团队快速生成场景设计和动画片段,提升创作效率,降低制作成本。
新闻与媒体:新闻机构和媒体生成动画和视觉效果,增强新闻报道的视觉效果和观众参与度。

讯飞绘文

讯飞绘文是科大讯飞推出的免费一站式AIGC内容运营平台,集成讯飞星火MAX、DeepSeek V3-0324 和 DeepSeek R1三大模型,为内容创作者提供高效、智能的写作解决方案。集选题推荐、智能写作、AI配图、排版润色、内容审查、多平台发布及数据分析等功能于一体,能快速生成热点文章、营销文案、学术论文等各类内容。用户可以通过强大的AI选题功能获取灵感,一键生成文章草稿,并合私域知识库创作更具针对性的内容。智能配图和自动排版功能可提升内容的视觉效果,内容审查功能则能帮助用户降低风险。讯飞绘文支持将内容一键分发至多个平台,汇总数据提供优化建议,助力用户提升内容运营效率。

讯飞绘文的主要功能

  • AI智能写作:能根据用户输入的主题或关键词快速生成文章草稿,支持多种文章类型,如深度稿件、通用稿件等,内容质量较高。
  • 选题推荐:基于大数据分析,推荐热门和潜在的创作主题,结合热点、节日、文章、图片材料等信息,为创作者提供丰富的选题建议。
  • 润色优化:对文章进行语言修饰,提升文章的可读性和专业性,确保语句流畅、逻辑严谨。
  • 多语言支持:支持英、俄、日、韩等10种外语文本生成,以及多语种文本互译。
  • AI配图:根据文章内容自动生成或匹配合适的图片,确保图文并茂,提升视觉吸引力。
  • 智能排版:自动优化文章布局,提供多种排版模板,支持一键生成Word、PPT文档,提升阅读体验。
  • 内容发布与管理功能
  • 一键发布:支持将内容一键分发至微信公众号、今日头条、小红书、百家号、知乎等主流社交媒体和内容平台。
  • 数据分析:自动汇总多平台数据,帮助创作者了解内容曝光与互动情况,为后续创作和运营提供数据支持。
  • 多模型选配:集成讯飞星火MAX、DeepSeek V3-0324 和 DeepSeek R1 三大差异化模型,创作者可根据不同需求选择模型。
  • 思维链式创作:首创模块化创作路径,涵盖30多种不同体裁与思维链式写作模式,帮助创作者拆解创作任务,精准输出高质量内容。
  • 轻图文功能:专为自媒体、电商等领域的创作者量身定制,输入一句话主题即可生成图文并茂的作品,支持组件化操作和多种风格模板。

如何使用讯飞绘文

  • 下载与安装:访问讯飞绘文的官网(turbodesk.xfyun.cn),使用手机号或微信扫码注册登录。
  • 选择功能模块:登录后,进入操作界面,选择需要的功能模块,如选题推荐、轻图文,通用笔记,演讲稿等。
  • 选题推荐:在“选题库”中浏览热点话题或灵感启发,选择感兴趣的主题进行创作。
  • AI写作:输入主题或关键词后,点击“写成文章”,平台会生成多篇草稿,用户可以选择满意的草稿并进一步修改。
  • 润色优化:对生成的文章进行润色、扩写、简写或续写,提升文章质量。
  • AI配图:选中需要配图的段落,AI会自动提取关键词并生成多张配图,用户也可以手动输入描述词。
  • 智能排版:选择内置的排版模板,一键套用并灵活调整,确保文章在不同平台上的展示效果。
  • 内容发布与管理:完成创作后,点击“多平台一键分发”,将内容发布到微信公众号、今日头条、小红书等平台。平台会自动汇总多平台数据,提供账号优化建议。
  • 私域知识融合:结合企业或个人的专属素材生成定制化内容。
  • AI审查:自动对内容进行纠错校对和风险审查,确保符合平台规则。

讯飞绘文的产品定价

  • 免费使用

讯飞绘文的应用场景

  • 企业公众号运营:企业运营团队可以通过讯飞绘文快速生成高质量的文章和配图,提升公众号内容的发布效率,同时结合数据分析功能优化内容策略。
  • 新闻媒体:媒体记者可以用讯飞绘文的热点选题推荐和AI写作功能,快速生成新闻初稿,结合实时热点快速发稿,抢占时效性。
  • 自媒体创作:自媒体创作者可以用讯飞绘文快速生成热点文章和吸引眼球的图文内容,提升创作效率和粉丝互动。
  • 电商平台:商家可以用讯飞绘文生成产品描述、营销文案等内容,提升电商运营效率。
  • 教育培训:教育工作者可以用讯飞绘文制作教学内容、课件、知识库整理等。

讯飞绘文的适用人群

  • 自媒体创作者:用讯飞绘文快速生成热点文章和吸引眼球的图文内容,提升创作效率和粉丝互动。
  • 媒体记者:通过讯飞绘文迅速获取新闻选题,一键生成草稿,提高新闻报道的速度和准确性。
  • 文案策划:结合私域知识库,用讯飞绘文创作有针对性的营销文案,增强品牌传播效果。
  • 企业公众号运营者:用讯飞绘文高效规划和发布企业内容,通过数据分析优化内容策略。
  • 学术研究人员:用讯飞绘文整理资料、撰写论文,提升学术写作的质量和效率。

Deep Video Discovery – 微软推出的深度视频探索智能体

Deep Video Discovery是什么

Deep Video Discovery(DVD)是微软推出的深度视频探索智能体,专为理解和分析长视频设计。Deep Video Discovery将长视频分割成多个较短的片段,基于大型语言模型(LLM)的高级推理能力,自主地规划和选择合适的工具及参数来收集信息。Deep Video Discovery配备一套搜索中心的工具,包括全局浏览、片段搜索和帧检查,能在不同层次上收集信息,基于迭代推理逐步构建对视频内容的理解。在多个长视频理解基准测试中,Deep Video Discovery均取得最先进的性能,显著提高长视频理解的准确性和效率。

Deep Video Discovery

Deep Video Discovery的主要功能

  • 多粒度视频理解:从全局、片段和帧三个层次理解和分析视频内容,提供全面的视频理解能力。
  • 自主搜索与推理:自主地规划和执行搜索策略,根据用户查询动态选择合适的工具和参数,逐步收集信息并构建对视频内容的理解。
  • 高效信息检索:基于全局浏览、片段搜索和帧检查等工具,快速定位和提取与用户查询相关的视频片段和细节。
  • 长视频理解:擅长处理长达数小时的信息密集型视频,能有效解决长视频理解中的时间和空间复杂性问题。
  • 灵活的工具使用:根据不同的任务需求,灵活组合和使用多种工具,实现高效的视频内容分析和问题回答。

Deep Video Discovery的技术原理

  • 多粒度视频数据库构建:将长视频均匀分割成多个较短的片段(clips),每个片段大约5秒。从全局、片段和帧三个层次提取视频信息。全局层提供视频的主体和事件总结,片段层提供文本描述(caption),帧层保留原始像素信息。构建一个包含解码帧、文本描述和对应嵌入向量的结构化数据库,支持快速检索和详细分析。
  • 自主搜索与答案生成
    • 全局浏览(Global Browse):提供视频的全局总结,帮助代理快速解视频的主体和主要事件。
    • 片段搜索(Clip Search):基于文本嵌入匹配,快速检索与用户查询相关的视频片段。
    • 帧检查(Frame Inspect):在特定时间范围内进行细粒度的视觉问答(VQA),提取帧级别的详细信息。
    • 自主代理设计:Agent基于迭代的观察-推理-行动循环,用LLM的推理能力,动态选择和使用工具,逐步收集信息并构建对视频内容的理解。
    • 迭代推理:Agent根据当前的观察状态和推理结果,选择合适的工具和参数,逐步细化查询,最终生成准确的答案。
  • LLM驱动的推理:LLM作为核心,负责推理和规划。LLM根据当前的对话历史和观察结果,选择合适的工具和参数,动态调整推理策略。根据任务需求,灵活组合和使用不同的工具,构建多步骤的工具使用链,解决复杂的查询任务。

Deep Video Discovery的项目地址

  • arXiv技术论文:https://arxiv.org/pdf/2505.18079

Deep Video Discovery的应用场景

  • 教育领域:在线教育平台分析长视频课程,学生快速定位到课程中特定知识点或章节。
  • 体育赛事分析:体育赛事分析比赛视频,快速提取关键事件。
  • 视频监控:安防监控系统中,实时分析监控视频,快速识别异常行为或事件。
  • 影视制作:影视后期制作团队分析拍摄素材,快速找到所需镜头。
  • 企业会议记录:企业分析会议视频,快速提取会议要点和关键决策。

Qwen3-Coder – 阿里通义千问推出的代码生成模型

Qwen3-Coder是什么

Qwen3-Coder 是阿里通义千问团队推出的强大代码生成模型,拥有 480B 参数和 35B 激活参数,支持原生 256K token 上下文,支持扩展达到 1M token。模型在 Agentic Coding、Agentic Browser-Use 和 Agentic Tool-Use 等任务上表现卓越,达到开源模型的顶尖水平。Qwen3-Coder 基于大规模强化学习和长时序交互训练提升性能,提供命令行工具 Qwen Code 和 API 接口,方便开发者使用。Qwen3-Coder 支持助力软件开发,提升效率,降低复杂任务的人力负担。

Qwen3-Coder

Qwen3-Coder的主要功能

  • 代码生成与优化:根据用户输入的自然语言描述生成高质量的代码。支持多种编程语言,包括但不限于 Python、JavaScript、Java 等,能生成复杂的代码逻辑,如函数、类、模块等。
  • 代理式编程(Agentic Coding):自主规划和执行多步骤任务,例如在开发过程中自动调用工具、执行代码测试等。支持与外部工具(如浏览器、API 等)交互,完成复杂的任务。
  • 长时序交互(Long-Horizon Interaction):在真实世界的软件工程任务中,Qwen3-Coder 用多轮交互解决问题,例如在 SWE-Bench 等任务中表现出色。
  • 上下文扩展:原生支持 256K token 的上下文长度,基于 YaRN 技术扩展到 1M token,适用仓库级和动态数据(如 Pull Request)的处理。
  • 多工具集成:支持与多种工具(如 Qwen Code、Claude Code、Cline 等)集成。

Qwen3-Coder的技术原理

  • 混合专家模型(Mixture-of-Experts, MoE):Qwen3-Coder 是 480B 参数的混合专家模型,激活 35B 参数。支持模型在处理大规模数据时保持高效的计算性能,同时具备强大的表达能力。
  • 大规模预训练(Pre-Training):用 7.5T 的数据进行预训练,代码数据占比 70%。基于大规模数据训练,模型学习到丰富的编程模式和语言结构。支持 256K token 的上下文长度,基于 YaRN 技术扩展到 1M token,优化对仓库级和动态数据的处理能力。
  • 合成数据扩展:基于 Qwen2.5-Coder 对低质数据进行清洗和重写,显著提升整体数据质量,进一步优化模型的训练效果。
  • 强化学习(Reinforcement Learning, RL):在后训练阶段,基于大规模强化学习,通过自动扩展测试样例,构造高质量的训练实例,显著提升代码执行成功率。引入长时序强化学习(Long-Horizon RL),鼓励模型用多轮交互解决问题,提升在真实软件工程任务中的表现。

Qwen3-Coder的项目地址

  • 项目官网:https://qwenlm.github.io/blog/qwen3-coder/
  • GitHub仓库:https://github.com/QwenLM/Qwen3-Coder
  • HuggingFace模型库:https://huggingface.co/Qwen/Qwen3-Coder-480B-A35B-Instruct

Qwen3-Coder的应用场景

  • 代码生成与自动化开发:快速生成代码原型,支持多语言,节省开发时间,提升效率。
  • 代理式编程(Agentic Coding):自主规划和执行多步骤任务,与外部工具交互,完成复杂任务。
  • 软件工程任务:辅助代码审查、优化、测试生成和文档编写,提升代码质量和开发流程效率。
  • 教育与学习:为初学者提供代码示例和教学支持,助力快速掌握编程知识和技能。
  • 企业开发:快速开发内部工具、自动化脚本,提升团队效率,加速项目启动。