陆师兄运营 – 第 19 页 – 分享ai创作变现教程欢迎交流合作

Skywork MindLink – 昆仑万维开源的推理大模型

Skywork MindLink是什么

Skywork MindLink是昆仑万维推出开源的推理大模型。具有自适应推理机制，可根据任务复杂度灵活切换推理模式，简单任务快速生成，复杂任务深度推理，兼顾效率与准确性。计划驱动推理范式去掉了“think”标签，降低了推理成本，提升了多轮对话能力。提出了新的数学分析方法，显著提升了数学推理水平。

在性能方面，Skywork MindLink在“人类最后的考试”评测中获得第一名，在数学领域的USAMO等四项评测中也位居榜首。基于Qwen3-32B和Qwen2.5-72B进行后训练，节省了大量训练成本，提升了模型能力。

Skywork MindLink的主要功能

自适应推理机制：能根据任务的难易程度，智能地整合推理与非推理的生成回复。简单任务快速生成结果，复杂任务则深度推理，确保输出的准确性和可靠性。
计划驱动推理（Plan-based Reasoning）：采用创新的推理范式，去掉了“think”标签，减少了推理成本，同时提升了多轮对话能力。
全新数学分析方法：能有效分析思维链（CoT）和计划驱动推理的有效性，提升数学领域的推理水平。

Skywork MindLink的技术原理

自适应推理机制：Skywork MindLink 能根据任务的复杂程度，智能地整合推理和非推理的生成回复。在处理简单任务时，模型可以快速生成结果；在面对复杂问题时，会调用更深度的推理机制，确保输出的准确性和可靠性。
计划驱动推理（Plan-based Reasoning）：模型采用了创新的推理范式，去掉了传统的“think”标签，减少了不必要的推理步骤，降低了推理成本，提升了多轮对话的能力。
数学推理优化：Skywork MindLink 提出了一种全新的数学方法，用于分析思维链（Chain of Thought，CoT）和计划驱动推理的有效性，显著提升了数学领域的推理水平。
基于现有模型的后训练：模型基于 Qwen3-32B 和 Qwen2.5-72B 进行后训练，在节省大量训练成本的前提下，进一步提升了原有模型的能力。

Skywork MindLink的项目地址

Github仓库：https://github.com/SkyworkAI/MindLink
技术论文：https://github.com/SkyworkAI/MindLink/blob/main/mindlink.pdf
HuggingFace模型库：
- MindLink-32B：https://huggingface.co/Skywork/MindLink-32B-0801
- MindLink-72B：https://huggingface.co/Skywork/MindLink-72B-0801

Skywork MindLink的应用场景

个性化学习：Skywork MindLink 可以根据学生的学习进度和能力，提供个性化的学习建议和辅导。
智能辅导：在解答复杂问题时，模型能深入推理，为学生提供详细的解题思路和步骤。
辅助诊断：Skywork MindLink 可以辅助医生进行疾病诊断，提供基于数据的分析和建议。
风险评估：在金融风控领域，Skywork MindLink 可以高效地进行风险评估，帮助金融机构做出更精准的决策。
智能客服：快速响应客户咨询，提供准确的解答，提升客户满意度。

Gemini 2.5 Deep Think – 谷歌推出的AI推理模型

Gemini 2.5 Deep Think是什么

Gemini 2.5 Deep Think 是谷歌推出的 AI 模型，专为解决复杂任务设计。是获得 2025 年国际数学奥林匹克竞赛（IMO）金牌的模型的变体，通过并行思考技术（Parallel Thinking）和强化学习，能同时探索多种解法，互相验证并优化，最终得出最佳答案。Deep Think 特别擅长处理复杂的数学问题、算法设计、科研推理和创意开发任务。

在性能上，Deep Think 在多个基准测试中表现出色，例如在 HLE 测试中取得 34.8% 的最高分，在 AIME 2025 中接近满分，在 LiveCodeBench V6 中也取得了 87.6% 的高分。能生成更详细、更具创造性的输出，尤其在复杂任务中表现出色。Deep Think 仅向 Google AI Ultra 订阅用户开放，月费为 249.99 美元（约 1800 元人民币），每天有固定的使用额度。

Gemini 2.5 Deep Think的主要功能

并行思考：Deep Think 通过并行思考技术，能同时生成多个想法并进行评估。会同时探索多种解法，互相验证并优化，最终得出最佳答案。类似于人类在解决复杂问题时的多角度思考。
强化学习：通过新的强化学习技术，Deep Think 能随着时间推移不断优化其推理路径，变得更擅长解决问题。
数学与算法：Deep Think 在数学和算法设计方面表现出色。能解决复杂的数学问题，例如在 2025 年国际数学奥林匹克竞赛（IMO）中获得金牌，并在 AIME 2025 中接近满分。
科研推理：Deep Think 可以帮助研究人员提出和验证数学猜想，推理复杂的科学文献，加速科学发现的进程。
迭代开发：Deep Think 在需要分步骤构建复杂事物的任务中表现出色。例如，在网页设计、游戏场景建模和产品原型优化中，能同时提升项目的美观度和功能性。
体素艺术：在生成复杂的创意设计（如体素艺术）时，Deep Think 能生成更丰富、更详细的输出，相比其他版本的 Gemini 模型，细节和美感显著提升。
高难度编程问题：Deep Think 在处理需要精确问题表述、权衡取舍和时间复杂度的编程问题时表现出色。能帮助程序员拆解问题、算法建模，逐步逼近最优解。
代码优化：在 LiveCodeBench V6 测试中，Deep Think 取得了 87.6% 的高分，显示出其在代码优化和算法设计方面的强大能力。
内容安全性和客观性：Deep Think 的内容安全性和客观性相比 Gemini 2.5 Pro 有所提升，能更好地处理敏感和复杂的内容。
拒绝良性请求：虽然拒绝良性请求的倾向有所增强，确保了模型在处理复杂任务时的严谨性和安全性。

Gemini 2.5 Deep Think的技术原理

多线程推理：Deep Think 可以同时生成并考量多种思路，随着时间推移修订或融合不同想法，最终得出最佳答案。
延长思考时间：通过延长推理时间，模型有更多机会探索不同的假设，为复杂问题找到更具创造性的解决方案。
优化推理路径：强化学习技术使 Deep Think 能随着时间推移不断优化其推理路径，成为更出色、更直观的问题解决者。
动态调整：用户可以设置思考预算来平衡性能和成本。
稀疏混合专家（MoE）架构：Deep Think 基于稀疏混合专家架构，允许模型激活每个输入 token 的模型参数子集。具体特点包括：
- 动态路由：模型通过学习将 token 动态路由到参数子集（专家），在总模型容量与每个 token 的计算和服务成本之间解耦。
- 高效计算：这种架构使模型能够高效地处理大规模输入，同时保持高性能。

Gemini 2.5 Deep Think的项目地址

项目官网：https://blog.google/products/gemini/gemini-2-5-deep-think/
技术论文：https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Deep-Think-Model-Card.pdf

Gemini 2.5 Deep Think与 Gemini 2.5 Pro 对比

能力/属性	Gemini 2.5 Pro	Gemini 2.5 Deep Think
推理速度	快速，低延迟	较慢，延长“思考时间”
推理复杂度	中等	高，使用并行思维
提示深度和创造力	良好	更详细、更细致
基准测试表现	强劲	状态最先进的
内容安全与客观性	相比旧模型有所改进	进一步改进
拒绝率（良性提示）	较低	较高
输出长度	标准	支持更长的响应
体素艺术/设计保真度	基本场景结构	增强的细节和丰富性

Gemini 2.5 Deep Think的应用场景

数学与算法：在国际数学奥林匹克竞赛（IMO）中达到金牌水平，在 AIME 2025 中接近满分。
科研推理：帮助研究人员提出和验证数学猜想，推理复杂科学文献。
创意与设计：在网页设计、游戏场景建模等任务中表现出色，能生成更丰富、更详细的输出。
设计师：生成复杂的创意设计，优化网页和游戏场景。
学生和教育工作者：辅助解决复杂的数学和科学问题。

RedOne – 小红书推出的社交大模型

RedOne是什么

RedOne 是小红书推出的首个面向社交网络服务（SNS）领域的定制化大语言模型（LLM）。模型通过三阶段训练策略，注入社交文化知识，强化多任务能力，并对齐平台规范与人类偏好。相较于基础模型，RedOne 在八大社交任务上平均性能提升14.02%，在双语评测基准上提升7.56%。模型在有害内容检测中将曝光率降低11.23%，在浏览后搜索中将点击页面率提升14.95%。RedOne 在社交领域展现出卓越的效果，为 SNS 应用提供强大的支持。

RedOne的主要功能

内容理解：能对用户生成的内容进行分类、主题识别和意图理解。
信息提取：从非正式的社交帖子中提取结构化信息，如预测标签、回答问题和检测重点词汇。
语义匹配：判断用户查询与社交笔记之间的语义关系，提供相关性评估。
用户行为建模：模拟用户行为，如基于浏览历史生成后续查询。
对话与角色模拟：支持情感陪伴对话和群聊中的角色扮演。
翻译：在多语言环境中进行笔记翻译，保留原始语气和情感。
有害内容检测：降低有害内容的曝光率，提升平台安全性。
浏览后搜索优化：提升用户点击页面率，增强内容发现能力。

RedOne的技术原理

继续预训练（Continue Pretraining, CPT）：RedOne 的继续预训练阶段为模型注入社交领域的基础知识。研究人员从通用高质量语料库和社交网络平台收集大规模数据，涵盖非正式讨论、短评论、讽刺语句等多种社交沟通模式。用精心设计的数据筛选流程，去除低质量数据并优化数据混合分布，在 Qwen2.5 的基础上继续训练模型。
监督微调（Supervised Fine-Tuning, SFT）：在监督微调阶段，基于精心设计的任务定义和数据构建，弥合预训练目标与实际 SNS 应用需求之间的差距。研究人员整理了大量真实用户生成的内容，定义六种核心能力，包括内容理解、信息提取、语义匹配等，并将每种能力映射到具体任务。基于双步训练策略，第一步使大规模通用数据和 SNS 数据混合训练，第二步提高 SNS 数据比例，进一步优化模型在关键任务上的表现。
偏好优化（Preference Optimization, PO）：偏好优化阶段通过利用隐性偏好信号，让模型输出更符合人类偏好和平台规范。研究人员根据不同任务类型（主观任务和客观任务）用不同的偏好对构建策略，邀请专家标注偏好并扩展数据集。基于直接偏好优化（DPO）算法，用偏好数据集中的信号，优化模型的输出，让其更贴近人类偏好。
数据混合与通用能力保留：在训练过程中混合通用领域数据和 SNS 领域数据，保持模型的通用能力，同时提升在 SNS 领域的适应性，增强模型在特定领域的表现，提升在未见过的任务（Out-of-Domain, OOD）上的泛化能力。

RedOne的项目地址

arXiv技术论文：https://www.arxiv.org/pdf/2507.10605

RedOne的应用场景

有害内容检测：有效识别和过滤有害内容，如仇恨言论、虚假信息、色情暴力等。通过降低有害内容的曝光率，显著提升平台的安全性和用户体验。
浏览后搜索优化：根据用户的浏览历史和行为，生成更精准的搜索建议和推荐内容，能提升用户的内容发现能力，增强用户与平台的互动。
内容理解与分类：对用户生成的内容进行自动分类和理解，帮助平台更好地管理和推荐内容。
信息提取：从非正式的社交帖子中提取关键信息，如标签、重点词汇、关键事实等。对于内容推荐、信息聚合和知识图谱构建非常有帮助。
语义匹配：评估用户查询与社交笔记之间的语义相关性，提供更精准的搜索结果和推荐内容。

全球首个！纳米AI多智能体蜂群上线

8 月 1 日，360 集团正式宣布纳米 AI 完成品牌焕新，升级为“多智能体蜂群”。这标志着纳米 AI 成为全球首个真正迈入L4级别的智能体系统，颠覆了以往智能体的工作范式 —— 它实现了智能体从“单兵作战”到“群体协同”的物种级进化，成为 AI 生产力迈入 “成果交付时代”的关键跃迁节点。

从 L1 到 L4：智能体的四次物种进化

纳米AI多智能体蜂群出现之前，智能体经历过三个发展阶段：

——L1聊天助手，本质上是聊天工具，擅长提建议或提供情感陪伴，属于“玩具级”智能体，比如GPTs。

此时的 AI 尚处于“单向响应”阶段，更像是被动输出信息的“对话窗口”，远未触及 “解决问题” 的核心。

——L2低代码工作流智能体，以低代码模式搭建的工作流智能体为代表，已经从“玩具”进化为“工具”，但交付的是半成品工具而非最终产物。

——L3自主规划智能体，具备推理能力的智能体，比如首发版的Manus、比如目前纳米AI中的5万+ 垂直专家智能体，包括深度研究智能体、购物智能体等。

他们单兵作战的能力很强，可以看作一位领域专家。它们首次实现了“单领域深度推理”，能够针对特定任务进行多步逻辑推演，甚至调用工具完成定向目标，但受限于技术框架，面对跨领域复杂问题时，仍会因缺乏协同规划能力而陷入瓶颈，无法实现多层级思考下的全局优化。

当单智能体的能力边界难以突破复杂任务的层层壁垒时，纳米AI独创的L4级别智能体应运而生，纳米AI的产品能力从「超级智能体」升级为「多智能体蜂群」。

多智能体蜂群能实现多个智能体拉群组队协作，像搭积木一样，把不同专长的推理型智能体组合为人服务。到 L4 级智能体蜂群，就像人类雇佣了一个团队在工作，甚至可以随时扩展这个团队的规模，实现能力的无限扩展，从而帮你拿到结果、达成目标。

纳米 AI破解多智能体协作的技术密码

虽然AI领域不乏智能体，也可见“多智能体”搭建的尝试，但在技术路径上仍然面临很大挑战。

实测证明，在目前流行的多智能体技术框架下，无法解决任务分配、参数传递、上下文管理等问题，实现有效的团队协作。单个智能体成功率如果达到九成，5个智能体协作的成功率甚至要降至五成以下。多步骤工作流里的错误率，是以指数方式复合叠加的。每一步95%的可靠性，跑20步，成功率就只剩下仅约30%。

上述问题不解决，多智能体协作将陷入“三个和尚没水喝” 的困境，1+1效果远远小于2。

为此，纳米AI独创了全新的「蜂群协作框架」，多个推理型智能体可以灵活拉群、多层嵌套、组队协作完成复杂任务。该技术主要在两大方面领先行业：

第一，实现多个智能体灵活拉群、多层嵌套、组队协作完成复杂任务，让他们像蜂群一样紧密协作。这不是一个 Agent 单打独斗，而是多位 “AI牛马”分工协作，各司其职、同时上阵，效率和交付结果能力飙升。

其次，升级后的纳米AI成功实现「多智能体蜂群」的灵活配置，可单蜂群作战，也可以组成蜂群方阵。面对用户提出的各类新任务，还能随时变换阵形。聚是一团火，散是满天星。

可以理解为，纳米AI的L4蜂群既是L3专家的协作枢纽，让垂直智能体像精密齿轮般咬合联动；更能成为超级集群的协作网络，串联起多个蜂群形成合力——从单领域深耕到跨体系协同，每一次组队都是能力边界的拓展，每一层叠加都指向更高效的成果交付。

截至目前，纳米 AI 中已有超过 5 万个 L3 级推理智能体，单兵作战能力超强。在纳米，通过自然语言就可以设计、搭建推理智能体，人人都能搭建自己的Manus。在蜂群框架下，我们让这些智能体组合成 L4 团队，在一套指挥系统下，目标一致、步调一致执行任务，每个角色在团队中的作用都能发挥到极致，最终完成超长的复杂任务，比如制作一个长达10分钟的电影级大片。

目前纳米 AI 智能体蜂群已实现连续 2 小时执行超 1000 步任务不中断，消耗 token 超 2000 万。

纳米AI多智能体蜂群能力如此强悍的秘诀，在于其拥有行业领先的多智能体蜂群引擎，这是多智能体蜂群能够支持无限工具调用、无限上下文长度，可以执行无限步骤超级任务的核心。

目前纳米 AI 已上线 10 + 类多智能体蜂群，涵盖视频制作、内容创作、行业研究、电商带货、旅行规划等多个场景，这些多智能体蜂群由每个行业的业务专家主导定制，更懂你，更实用。

以视频多智能体蜂群为例，我们看下多智能体蜂群的效果：

纳米AI打造了国内首个“一句话生成大片”多智能体蜂群，从脚本、分镜、画面、配音、配乐到剪辑成片，使用L1到L3级智能体，完成这个任务至少两小时，现在仅需20分钟。

爆款视频生成多智能体蜂群：这是你的AI版“MCN团队”，从热点监测、脚本生成到视频生成，一句话生成爆款短视频，你可以用这样的智能体蜂群轻松实现自媒体创业起号。

Kimi K2 高速版发布！

kimi-k2-turbo-preview 是 kimi-k2 的高速版，模型参数与 kimi-k2 一致，但输出速度由每秒 10 Tokens 提升至每秒 40 Tokens。目前限时 5 折特惠，9月1日恢复原价，折扣后的价格：模型每百万 tokens 输入价格（缓存命中）¥2.00，输入价格（缓存未命中）¥8.00，输出价格 ¥32.00。
我们还将继续努力优化，进一步提升 kimi-k2 模型的输出速度。

FLUX.1 Krea [dev] – 黑森林联合Krea AI开源的文生图模型

FLUX.1 Krea [dev]是什么

FLUX.1 Krea [dev] 是 Black Forest Labs 与 Krea AI 合作推出的最新文本到图像生成模型，支持生成更逼真、更多样化的图像，实现照片级真实感水平。模型具有独特的美学风格，避免过度饱和的纹理，同时与 FLUX.1 [dev] 生态系统兼容，支持diffusers库和ComfyUI。模型现已开源，商业许可可通过 BFL Licensing Portal 获取，且FAL、Replicate 等提供 API 接口，便于集成和应用开发。

FLUX.1 Krea [dev]的主要功能

高逼真度图像生成：能生成高质量、逼真的图像，避免传统 AI 图像生成中常见的模糊背景和蜡质纹理等问题。
独特美学风格：具有独特的视觉风格，能生成多样化且具有艺术感的图像，满足不同用户的审美需求。
高度定制化：与 FLUX.1 [dev] 生态系统兼容，易于进行下游任务的定制和优化，适合多种应用场景。

FLUX.1 Krea [dev]的技术原理

预训练与后训练：模型在预训练阶段学习丰富的视觉世界知识，包括风格、对象、地点、人物等，目标是最大化多样性。预训练模型能生成基本的结构和文本，但图像质量有限。后训练阶段通过监督微调（SFT）和人类反馈的强化学习（RLHF）进一步优化模型。SFT阶段用高质量图像数据集进行微调，RLHF阶段通过偏好优化技术进一步提升美学和风格化。
基础模型选择：flux-dev-raw作为基础模型，是一个预训练的 12B 参数扩散变换器模型，包含丰富的世界知识，能生成多样化的图像，且未经过过度优化，保留原始的输出分布。
偏好优化技术：在 RLHF 阶段，用高质量的内部偏好数据进行多轮优化，确保模型输出符合特定的美学标准。
数据质量与多样性：在后训练阶段，使用少量但高质量的数据进行微调，确保模型学习到更符合人类审美的图像特征。采用明确的、具有明确艺术方向的偏好数据，避免模型输出回归到“AI风格”。

FLUX.1 Krea [dev]的项目地址

项目官网：https://bfl.ai/announcements/flux-1-krea-dev
GitHub仓库：https://github.com/krea-ai/flux-krea
HuggingFace模型库：https://huggingface.co/black-forest-labs/FLUX.1-Krea-dev

FLUX.1 Krea [dev]的应用场景

创意设计与广告：为广告公司和创意工作室快速生成高质量的海报、宣传册和社交媒体图像，满足品牌视觉需求。
影视与游戏制作：为影视制作和游戏开发提供角色、场景和道具的概念设计图，加速创作流程并提升视觉效果。
教育与培训：为学校和培训机构生成科学插图、历史场景和虚拟实验室，增强教学互动性和学习效果。
产品设计与开发：帮助工业设计公司和服装品牌快速生成产品原型图和虚拟试穿效果，优化设计和开发流程。
医疗与健康：为医院和医学院生成人体解剖图、病理图像和虚拟医疗场景，辅助医学教育和心理治疗。

Manus AI 上线以来最大更新：100 个 Agent 为你打工，但缺点是太烧钱了

一个 Agent（智能体）不够用？Manus 干脆给你拉来 100 个。

今天凌晨，Manus 推出了一项新功能：Manus Wide Research。这项功能的核心亮点在于，用户只需一键即可开启大规模并行 Agent 协作，轻松处理原本需要耗费数小时、动用数百个数据源的复杂调研任务。

简单来说，这类似于此前 Grok 4 Heavy 的多 Agent 模式——同时启动多个 Agent 并行工作，最后整合输出结果。不过，Manus Wide Research 的调度规模更为庞大，Agent 之间的协作也更加紧密。

在官方的演示 demo 中，Mamus 展示了两个典型的案例。第一个案例，是让 Wide Research 对比分析 100 款运动鞋。

从功能、定价、设计到销量，Manus 会首先并发调用 100 个子 Agent ，每个负责一款产品，独立抓取分析、汇总信息。随后，这批结果被自动汇总成 Excel 表格和网页，交付清晰的最终排序和评估建议。

第二个案例，是为即将举办的活动寻找海报灵感。Wide Research 能够同时探索 50 种视觉风格，并自动生成匹配风格的完整海报图样。几分钟内，成品设计就能交到用户手上。

目前，这项新功能已率先向 Pro 用户（199 美元/月）开放，并计划逐步向 Plus（39 美元/月）和 Basic（19 美元/月）层级用户开放。

AI赋能技术、生态“抱团出海”时代来临

在全球贸易形势不断变化的当下，单是产品出海或品牌出海，可能已无法适应眼下的贸易新形势。而产能出海+技术出海+生态出海的方式，提示企业不仅需要走出去，还要融进去，在出海目的地实现本地化运营。那么，当下火热的AI将在这个过程中扮演什么样的角色？

7月29日，在“从技术出海到生态出海——AI赋能产业新范式”圆桌论坛上，来自深兰科技、云迹科技、科大讯飞、找钢集团、沸点资本、海银资本的嘉宾就这一话题进行了广泛、深入地沟通和探讨。

让AI融入“烟火气”

参与讨论的多位嘉宾强调，AI的价值不在于技术本身的“高大上”，而在于能否落地到具体场景和解决实际问题。

以AI热门应用的机器人为例，深兰科技创始人、董事长兼CEO陈海波表示，机器人产品商业化落地的底层逻辑有两个：一要以较大成本优势替换人工，二要能帮老板多挣钱或多省钱。

对此，云迹科技副总裁谢云鹏也认为，机器人替代人工成本是第一性的。“AI要融入到产业当中看怎么才能产生技术的价值，到底如何满足需求，这是最核心的问题。”他指出，把AI融入到人间烟火中去，这是云迹科技思考的原点。

据介绍，作为酒店数字化领域的领先企业，云迹科技服务型机器人已落地全球30000多家酒店、100多家医院、工厂、社区等场景，累计服务超5亿次，总行驶里程超过2000万公里，相当于绕地球赤道500多圈。

而作为一家深耕钢铁电商赛道多年的B2B企业，找钢集团董事会秘书孟龙表示：“在人工智能的应用上，我们作为B2B的企业，用得还是挺深入的。”

孟龙指出，钢铁每天可能会有10次左右的价格波动，涉及的品类又多，对此现在已开发12个AI Agent来帮助员工，提高他们的效率。他还表示，随着大模型的成熟，他们匹配的准确度有了量变到质变的提升（提升到95%以上），已可以用这些AI软件实现跨品类交易。

而在科大讯飞副总裁、AI营销业务群总裁李平看来，AI的落地应用中国已然领先。“今年的世界人工智能大会（WAIC）有非常多AI的应用，不管是在机器人，还是在穿戴式设备，包括在智能体上。AI在中国应用得非常好，处于百花齐放、百家争鸣的状态。”他说。

事实上，透过今年的世界人工智能大会现场，可以看到在人形机器人这些AI应用领域，中国已经是全球的领军者。谷歌前CEO埃里克·施密特（Eric Schmidt）曾表示，凭借强大的制造业实力，中国能够把人工智能技术应用到现实生产中，做到其他人只能梦想的事情。

“中国的产能不仅是为中国准备的，也是为世界准备的。”陈海波表示，基于国内具有完善的供应链制造优势，AI在制造业升级方面的意义很大，未来也许是AI的智能硬件时代。

陈海波认为，就像40年前全世界用中国的服装鞋帽，30年前用中国的电视机、电冰箱，后来用中国的光伏玻璃、电动工具，到现在的新能源汽车一样。中国的AI产品会走向世界，尤其是软硬兼备的产品会有很强的竞争力。

出海不是单一企业的“独行”

在多位与会嘉宾看来，AI出海的核心逻辑应以价值为导向，成本与需求是关键，而AI产品/技术的出海不以“是否先在国内用好”为前提。

谢云鹏举例称，近年来国外游客到中国旅游入住酒店时发现机器人来送水，觉得很惊讶，于是拍短视频到TikTok（海外版抖音）上。“其实我们会发现，在国内已经用得很好的智能产品，也会让国外的使用者产生‘种草’的效果。”他表示，在国内已非常成熟的AI产品，且产生产业价值和能替换劳动力、减少劳动力支出的，向海外输出可能性很大。

当然，中国AI产品的出海也存在诸多问题。据李平介绍，科大讯飞从2022年年底正式启动全球化进程，在过去两年多时间里，公司在出海过程中碰到了包括合规、语言和文化以及更重要的人才等多方面的问题。

“中国企业出海，无论是东南亚、中东还是欧洲，势必要在当地找本地化团队，或和当地企业共同研发。而各地区的人工智能人才，还是相对缺乏的。所以这也是我们科大讯飞，包括不少中国企业出海过程中所面临的问题。”李平坦言。

面对AI出海的挑战，嘉宾们一致认为，AI出海不能简单复制国内模式，而是需要产业链上下游、国内外资源的协同。

比如，李平给出了“开放生态、协同创新、本地化深耕”这三招来赋能中国的AI出海。仅就开放生态这招而言，截至目前，科大讯飞开放平台的开发者超过870万，其中海外开发者为50万。通过开放平台，开发创作者能够去开发更丰富的应用，面向客户特定场景的需求去解决真正的问题。

而在本地化深耕方面，科大讯飞目前在新加坡、迪拜、匈牙利等部分市场开展了本地化的工作，分别面向东南亚、中东、欧洲市场组建了本地化团队。本地团队的主要任务是“贴身”服务好当地的企业，与中国的一些出海公司共同通过AI技术，解决客户的实际问题。

对于找钢集团而言，它也不做“独行侠”，而是跟着央国企客户一起“抱团出海”。据了解，找钢集团已在东南亚、中东地区设有多个办公室。

孟龙指出，不仅仅是国内在用AI，印度的钢铁数字化平台也在组建人工智能公司，也在把人工智能的技术运用到其行业生态里面。所以，在整个B2B的生态里，互联网和人工智能都能深入改变这个行业的生态。

孟龙表示，东南亚、中东以及“一带一路”地区等目前还没有互联网生态的钢铁电商存在，也是中国AI出海的机会所在。

“随着我们国内人工智能实力的不断提升、产品的不断成熟，未来我们也能输出人工智能相关的一些技术，解决大宗商品钢铁原材料的流通效率和服务质量的问题。”孟龙说。

来源：中国经营报

苹果库克谈AI：业务放首位，或安抚员工担忧

IT之家 8 月 2 日消息，科技媒体 MacRumors 今天（8 月 2 日）发布博文，报道称在苹果全体员工大会上，首席执行官蒂姆・库克（Tim Cook）透露了该公司在 AI 领域的最新进展。

库克在演讲中强调，AI 的“蛋糕”将比智能手机和互联网更大，因此苹果目前已将开发 AI 业务放在首位。库克指出，尽管苹果并非总是第一个进入市场，但公司已经在多个市场占据主导地位，以 Mac、iPhone、iPad 和 iPod 为例，表明苹果将在未来 AI 的转型中发挥关键作用。

在苹果公司昨天的财报电话会议上，库克也提到了苹果计划在 AI 领域进行重大投资。他透露，苹果对收购有助于加速其发展路线图的公司持开放态度。

苹果软件负责人克雷格・费德里希也出席了会议，讨论了 Siri 的改进。他表示，公司对 Siri 底层架构的改革取得了“必要”的结果，这将带来比预期更大的升级。

该媒体认为 Meta 公司一直在挖角 AI 专家，而库克和费德里希的讲话可能是为了安抚员工对苹果在 AI 领域的承诺。由于 Meta 提供的高薪，一些苹果 AI 工程师已经跳槽到 Meta，苹果的士气受到影响。

视频语言预训练新进展：技术、应用与数据集全解析

预训练范式及代理任务：预训练和微调是深度学习常用的学习范式，在大型数据集上对模型预训练，再在小数据集上针对特定任务微调，可降低计算成本。预训练常采用自监督学习，在Imagenet等大型数据集上进行，无监督学习在NLP和CV领域也表现突出。视频语言预训练利用大规模视频文本数据开展自监督/无监督学习，获取泛化表征，主要代理任务有掩码语言模型、掩码帧模型等，旨在学习共现关联、语义限制等。

最新进展与应用领域：预训练模型进展凸显数据集大小对表征学习的重要性。研究人员利用互联网大规模、弱标记跨模态数据，推动了跨模态任务研究。如对比语言图像预训练（CLIP），基于4亿个图像-文本对数据集训练，在零样本视觉识别任务中表现优异。视频数据处理也有进展，Howto100M等大型视频数据集促进了视频语言预训练发展。Transformer模型在计算机视觉领域表现出色，视频语言预训练旨在将知识从大型数据集迁移到下游任务，包括视频文本检索、动作识别等。

开放数据集的作用：预训练数据集的规模和质量对学习鲁棒视觉表征至关重要。视频语言预训练关键数据集分为基于标签和基于字幕两类。基于标签的如Kinetics、AVA；基于字幕的有ActivityNetCaptions、YouCook2等，这些数据集为训练稳健模型提供了多样且大规模的数据。

单流与双流方法：近期视频语言预训练方法主要用Transformer作为特征提取器，分为单流和双流。单流方法有VideoBERT、HERO等；双流方法有CBT、UniVL等。这些方法在动作识别、视频字幕等应用中效果良好，单流和双流方法的选择取决于任务具体要求。