AI Compass前沿速览:可灵创意工坊、字节Coze Studio&Coze Loop、通义万相2.2 、智谱GLM-4.5、腾讯混元3D世界模型开源

AI Compass前沿速览:可灵创意工坊、字节Coze Studio&Coze Loop、通义万相2.2 、智谱GLM-4.5、腾讯混元3D世界模型开源

AI-Compass 致力于构建最全面、最实用、最前沿的AI技术学习和实践生态,通过六大核心模块的系统化组织,为不同层次的学习者和开发者提供从完整学习路径。

🌟 如果本项目对您有所帮助,请为我们点亮一颗星!🌟

1.每周大新闻

灵动画布 – 可灵AI推出的AI创意工作台

可灵AI有新动态,一是在世界人工智能大会期间发布全新创意工作台功能“灵动画布”,二是推出可灵2.1模型。

kuaishou.png

灵动画布情况

可灵2.1模型亮点

运动质量更高、视频更美更灵动、指令响应更好,给出了相关图片及图生视频示例。

SeedEdit 3.0 – 字节跳动推出的图像编辑模型

SeedEdit 3.0 是字节跳动Seed团队推出的图像编辑模型,支持用自然语言指令实现对图像的快速、高质量编辑。模型依托强大的文生图模型 Seedream 3.0,能精准理解用户指令,完成包括风格转换、细节调整、文字修改、光影变化等多种复杂编辑任务。模型在保留图像主体和细节方面表现出色,支持高清图像处理,适用专业设计师、内容创作者和普通用户,极大地简化图像编辑流程,提升创作效率,目前模型已上线火山方舟正式开放。

SeedEdit 3.0的主要功能

项目官网:https://volcenginecn.com/ arXiv技术论文:https://arxiv.org/pdf/2506.05083

SkyRouter – AI部署平台

SkyRouter 是面向 AI 模型的高性能平台,借助硬件和软件端到端优化,实现更快生成速度和更高吞吐量。通过全球分布式网络,提供低延迟用户体验。采用简单易用 API,无需管理复杂设施,有透明定价模式,适合各类用户。

主要功能

具备高性能优化、全球分布式网络、简单易用 API、透明定价、快速扩展、高稳定性等特点,还有 Playground 环境供用户测试探索模型。

应用场景

可用于 AI Agent 协作平台、垂直 AI Agents、物联网智能中心。

数据表现

能解锁 150 + 模型,平均月处理 2.2T 令牌,有 100 + 全球供应商,令牌处理速度达 600 每秒。

Seko-商汤AI短视频创作Agent

商汤科技推出全球首个创编一体的AI短视频创作Agent——Seko。

主要功能

可根据用户创意完成视频全流程创作,包括策划与剧本创作、自然语言编辑、角色一致性控制、多模态内容生成等,还提供推荐主体与灵感广场。

使用方法

访问官网注册登录,输入创意描述,点击生成,可编辑调整,最后导出成片。

应用场景

适用于短视频创作、短剧制作、产品宣传、角色二创、知识科普等场景,降低创作门槛。

AnyVoice – AI声音克隆平台

AnyVoice是全球首创的AI声音克隆平台,仅需3秒音频就能克隆出高度逼真声音,支持英、中、日、韩多语言。操作简单,无需技术专长,重视用户隐私。

主要功能

3秒快速克隆声音,能捕捉说话者细微差别与情感,生成与真人难区分的音频;支持实时音频生成,克隆后可立即生成音频;生成的音频支持MP3或WAV格式下载。

使用方法

访问官网https://anyvoice.net ,上传或录制3 - 10秒音频样本,点击“生成”,AI几秒内生成声音克隆,最后下载音频。

产品定价

免费版适合个人非商业用途,每次最多200字符,每月1200秒音频生成,最多创建10个声音克隆模型;专业版适合商业用途,每次最多1000字符,无限生成,优先生成,可创建无限声音克隆模型。

应用场景

涵盖内容创作、广告营销、教育与培训、游戏开发、虚拟助手等领域。

Opal – 谷歌推出的AI工作流生成平台

谷歌推出实验性AI工作流生成工具Opal,支持用自然语言和可视化编辑创建、分享AI小应用,无需代码构建多步骤AI应用。

主要功能

可创建工作流,支持自然语言编辑和可视化编辑,能快速分享应用,还有预建模板库。

使用方法

目前仅在美国公开测试,需访问官网注册登录,可选择模板或新建应用,描述逻辑生成工作流,再调整、测试和分享。

应用场景

涵盖内容创作、数据分析、客户服务、教育学习、项目管理等领域。

Agentar-Fin-R1 – 蚂蚁数科推出的金融推理大模型

蚂蚁数科推出面向金融领域的大型语言模型 Agentar - Fin - R1,基于 Qwen3 基础模型,有 8B 和 32B 参数版本,通过相关体系和框架优化,在金融及通用推理测试中表现出色。

蚂蚁.png

主要功能

具备复杂推理、决策支持、意图识别等功能,能保障金融系统安全和符合合规要求。

技术原理

采用精细化金融任务标签体系、多维度可信度保障框架、加权训练框架、两阶段训练策略、归因循环机制等,提出创新评估基准 Finova。

项目地址

arXiv 技术论文:https://arxiv.org/pdf/2507.16802

应用场景

可用于金融智能客服、风险评估与管理、市场趋势分析、财务报表分析、个性化推荐等。

Qwen-MT – 阿里机器翻译模型

Qwen - MT是阿里通义千问团队基于Qwen3架构推出的机器翻译模型,支持92种语言互译,覆盖全球超95%人口。

qwen.png

主要功能

技术原理

基于Qwen3架构,用万亿级多语言和翻译数据训练,结合强化学习优化,采用轻量级MoE架构,支持定制化功能。

翻译质量

自动评估中,在多领域翻译基准测试中显著优于可比规模模型;人工评估中,在十种主要语言翻译数据上表现优异。

应用场景

涵盖跨语言内容创作、企业国际化、教育、法律政务、技术开发等领域。

Runway Aleph – Runway推出的AI视频编辑模型

Runway Aleph 是 Runway 推出的强大的 AI 视频编辑模型。能通过简单的文字指令,快速实现视频内容的增删、风格转换、环境变换和镜头运动调整等功能。用户可以轻松移除视频中的多余元素,或者将白天场景变为夜晚,将视频风格从现实变为卡通。Aleph 的核心优势在于其基于上下文的编辑能力,能理解视频的叙事逻辑和时空关系,避免常见的编辑错误。

2.每周项目推荐

Coze Studio – 字节开源的AI Agent开发平台

简介

Coze Studio(扣子空间)是一个由字节跳动开发并开源的一站式AI Agent开发平台。它提供可视化的工具,旨在简化AI Agent的创建、调试和部署过程,让用户无需编写代码即可快速构建和发布智能体,并支持将其部署到多种平台。

核心功能

技术原理

Coze Studio的核心技术原理在于其可视化编程范式模块化Agent架构。它通过提供图形化的界面和可拖拽的节点,将复杂的AI逻辑和数据流抽象化,使得用户能够以非代码的方式构建AI Agent的工作流程。平台底层支持对插件、知识库、数据库和变量等多种资源的灵活管理和调用,实现Agent能力的扩展。此外,Coze Studio还提供了多种语言的SDKs,便于开发者通过API接口与平台进行交互和集成,将AI能力嵌入到现有应用中。其Agent设计理念强调任务的自动化分析与执行,通过内部逻辑编排和外部工具调用,实现复杂任务的自主完成。

Snipaste<em>2025-07-29</em>19-29-37.png

应用场景

Github仓库:https://github.com/coze-dev/coze-studio

Coze Loop – 字节Coze推出的AI Agent开发与调试平台

简介

CozeLoop 是一个旨在简化与 Coze 平台交互的开发工具,通过提供多语言 SDK (如 Python、Go 和 JavaScript) 来帮助开发者构建、管理和监控基于 Coze 平台的 AI 应用。它专注于提升开发者在处理 AI 交互流程中的效率和可观测性。

Snipaste<em>2025-07-29</em>19-29-11.png

核心功能

技术原理

CozeLoop 的技术原理主要基于客户端-服务端的交互模式。

应用场景

扣子空间-网页设计功能上线

它旨在提供一个完整的、覆盖多种场景的设计解决方案,特别是针对招聘页、活动页和个人简历等具体应用。

核心功能

技术原理

鉴于可用信息有限,无法深入解析具体技术原理。但推测其可能依赖于前端设计框架、UI/UX组件库,以及后端数据处理和内容生成技术,以实现高效且标准化的设计方案输出。

应用场景

通义万相2.2 – 阿里开源AI视频生成模型

简介

通义万相(Tongyi Wanxiang)是阿里云通义旗下的人工智能创意创作平台。其中,通义万相2.2(Wan2.2)是阿里巴巴开源的先进AI视频生成模型,旨在降低创意工作的门槛。该平台集成了多种AI生成能力,包括视频和图像内容的创作。

通义.png

通义1.png

核心功能

通义2.png

技术原理

通义万相2.2基于先进的AI视频生成模型,采用大规模模型(Large-Scale Video Generative Models)和混合专家架构(MoE-Architecture)来提升视频生成质量和控制力。其核心技术可能包括深度学习、扩散模型(如Hugging Face上提及的Diffusers)以及复杂的神经网络结构,以实现从文本或图像到高质量视频的转换。

应用场景

GLM-4.5 –SOTA 模型

简介

GLM-4.5是智谱AI(Z.ai)推出的一款新一代旗舰级开源大模型,旨在原生融合推理、代码和智能体(Agent)能力,是业界首款专注于智能体应用的SOTA模型。它在多个评测基准中表现卓越,综合性能达到开源模型的顶尖水平,尤其在代码智能体场景中表现优异。

智谱.png

核心功能

技术原理

GLM-4.5采用先进的混合专家(MoE)架构,通过激活部分专家模型来高效处理任务。例如,GLM-4.5拥有3550亿总参数和320亿激活参数,而GLM-4.5-Air则更为紧凑,拥有1060亿总参数和120亿激活参数。模型在参数效率上实现了显著优化,在保持高性能的同时,参数量远低于同级别模型。其技术栈支持深度思考(Deep Thinking)、流式输出(Streaming Output)、函数调用(Function Call)、上下文缓存(Context Caching)和结构化输出(Structured Output)等高级功能,提升了模型的实用性和集成能力。

应用场景

体验地址:

腾讯混元3D世界模型开源

简介

Hunyuan3D是腾讯研发的大规模三维生成模型,基于先进的扩散(Diffusion)技术。它能够通过文本描述或图像输入,快速、高效地生成高质量、逼真的3D资产。HunyuanWorld-1.0作为其重要组成部分,更是首个开源的三维世界生成模型,旨在革新3D内容创作流程。

腾讯.png

核心功能

技术原理

Hunyuan3D的核心技术是扩散模型 (Diffusion Models),这是一种生成式AI模型,通过逐步去噪过程从随机噪声中学习数据分布并生成新样本。其架构包含: 整个系统通过大规模3D数据集进行训练,以确保生成内容的质量和多样性。

应用场景

腾讯混元 3D 世界模型 1.0:

书生浦语-科学多模态大模型Intern-S1

简介

Intern-S1 是上海人工智能实验室 (Shanghai AI Laboratory) 开发的 InternLM 系列大型语言模型 (LLM) 中的一员。它旨在提供高质量的语言模型和全栈工具链,尤其强调其强大的推理能力和与外部工具的交互能力。

核心功能

技术原理

Intern-S1 基于 InternLM 的基础架构,并在此基础上进行了优化:

应用场景

Step 3 – 阶跃星辰多模态推理模型

简介

Step 3 是阶跃星辰(StepFun AI)发布的新一代基础大模型,专为推理时代设计。它集高性能与极致成本效益于一体,具备强大的视觉感知和复杂推理能力,旨在成为SOTA(State-of-the-Art)水平的开放生态基础模型。

核心功能

技术原理

Step 3 采用了先进的MoE(Mixture-of-Experts)架构,这使得模型能够在大参数量下实现高效的激活参数量,从而平衡性能与计算资源消耗。总参数量达到321B,激活参数量为38B。这种架构有助于模型在不同任务上动态激活最相关的专家网络,优化资源利用和推理效率。其技术报告进一步详细阐述了Attention-FFN解耦等优化技术,以实现高吞吐量解码。

应用场景

Higgs Audio V2 – 开源语音大模型

简介

Higgs Audio V2是由李沐及其团队Boson AI开发并开源的语音大模型。它是一个强大的音频基础模型,经过超过1000万小时的音频数据和多样化文本数据的预训练,旨在模拟自然流畅的多人互动场景,并具备生成高质量音频的能力。

核心功能

技术原理

Higgs Audio V2采用统一的音频语言建模方法(unified audio language modeling at scale)。它是一个基于超过1000万小时的音频数据和多样化文本数据进行预训练的音频基础模型。这种大规模的预训练使其能够捕捉复杂的语音特征、韵律变化以及多语言和多说话人的交互模式,从而实现自然度高、表现力强的语音生成。模型在多个基准测试中展现出高性能,包括Seed-TTS Eval、Emotional Speech Dataset (ESD)、EmergentTTS-Eval和Multi-speaker Eval。

应用场景

OceanBase PowerRAG – 一站式RAG应用开发工具

简介

OceanBase PowerRAG 是一款由 OceanBase 推出的开箱即用、一站式检索增强生成(RAG)应用开发工具。它旨在简化并加速智能应用的开发与上线,打通了RAG应用从数据层、模型层到应用层的全流程,无需复杂的部署和配置,支持将RAG能力无缝集成到各类现有系统中。

核心功能

技术原理

OceanBase PowerRAG 的核心技术原理是检索增强生成 (RAG)。它首先通过智能文本切分技术对上传的文档进行预处理,将非结构化或半结构化的文本数据转换为可管理的片段。接着,这些文本片段被向量化嵌入,即转换为高维向量空间中的数值表示,使得语义相似的文本片段在向量空间中距离更近。当用户提出查询时,系统会执行向量检索,在预先嵌入的知识库中快速找到与查询语义最相关的文档片段。最后,这些检索到的相关信息会被作为上下文输入给大型语言模型(LLM),从而生成精准且有依据的答案。整个过程实现了知识库的动态更新和高效利用,确保了生成内容的准确性和时效性。

应用场景

SuperDesign – 开源AI设计Agent

简介

SuperDesign是一款开源AI设计Agent,旨在帮助设计师和开发者在集成开发环境(IDE)中直接生成UI原型、组件和线框图。它通过自然语言输入驱动设计过程,并能够并行生成多个设计选项,大幅提升设计迭代效率。

design.png

核心功能

技术原理

SuperDesign的核心技术基于大型语言模型(LLM)和多Agent系统。它可能采用了Qwen3等基础模型进行开发,通过自然语言处理(NLP)技术解析用户输入的设计需求。其“并行生成多个设计选项”的功能,暗示了内部可能运行着多个独立的AI Agent,每个Agent负责探索不同的设计空间或基于不同的参数生成方案。这种多Agent协作模式结合无限画布(infinite canva UX)的交互方式,使得设计过程更具探索性和灵活性。项目开源,允许用户自定义Agent和迭代设计流程。

应用场景

MonkeyCode – 开源本地AI编程助手

简介

MonkeyCode 是长亭科技推出的一款企业级智能编程辅助平台。它专为研发管理设计,支持私有化部署、离线使用,并兼容第三方及本地化大语言模型。MonkeyCode 旨在通过 AI 能力提升研发效率,同时保障代码质量和数据安全,为企业提供远超普通AI编程助手的综合解决方案。

Snipaste<em>2025-07-29</em>19-36-57.png

核心功能

技术原理

MonkeyCode 的客户端插件部分基于 Roo Code 开发,并在此基础上进行了功能增强与用户体验优化。其核心技术原理在于利用先进的 AI 大语言模型(LLM)进行代码的智能生成、补全、分析与安全检测。通过私有化部署,确保了企业敏感代码和数据在本地环境中处理,避免数据外泄风险。平台通过集成AI模型,能够实时对编程行为进行分析、辅助和审计,实现高效且安全的软件开发生命周期管理。

应用场景

KAT-V1是快手开源的自动思考(AutoThink)大模型

简介

KAT-V1(Kwaipilot-AutoThink)是快手开源的大型语言模型,旨在解决大型模型推理过程中“过度思考”的问题。该模型拥有40B和200B两种版本,创新性地融合了思考与非思考能力,使其能够根据问题的难度自适应地切换推理模式,从而在保持高性能的同时提升效率。其中,40B版本已展现出接近顶尖模型的优异性能。

核心功能

技术原理

KAT-V1的核心技术原理在于其独特的“Kwaipilot-AutoThink”架构和两阶段推理范式。

应用场景

Agent Lightning – 微软开源的Agent模型训练框架

Agent Lightning 是微软研究团队推出的灵活可扩展的智能Agent优化框架。框架能无缝集成到任何现有的Agent框架中(如 OpenAI Agents SDK、LangChain 等),基于强化学习等数据驱动技术对代理进行优化,提升其性能和适应性。Agent Lightning 支持多轮交互、多Agent协调和动态上下文管理等复杂场景,提供错误监控功能,确保优化过程的稳定性。Agent Lightning 通过解耦Agent开发逻辑与优化逻辑,实现无需修改代理代码进行模型训练的目标,为开发者提供强大的工具构建动态、学习型智能Agent

Agent Lightning的技术原理 1. Lightning Server:管理训练数据,准备样本并提供 LLM(语言模型)端点。 2. Lightning Client:Agent从服务器获取样本,处理样本(涉及与 LLM 交互),将结果(轨迹)返回给服务器。 3. 非侵入式数据收集:基于 Sidecar 设计,非侵入式地监控 Agent 运行并收集数据(包括执行轨迹、错误和奖励信号)。

Eigent – CAMEL-AI推出的多智能体Workforce桌面应用

Eigent 是CAMEL-AI 团队推出的全球首个桌面端多智能体 Workforce 平台(Multi-agent Workforce)。平台基于开源项目 CAMEL 和 OWL 构建,支持用户自定义专属的 AI 团队,实现复杂任务的自动化。Eigent 具备多智能体并行执行、人类能随时介入(Human-in-the-loop)、灵活接入多种工具、100% 开源和本地部署等特点。Eigent 能将复杂的工作流程转化为自动化的任务,提升工作效率,同时保障数据隐私和可控性。

Snipaste<em>2025-07-30</em>19-34-16.png

多智能体系统架构:Eigent 的核心是多智能体系统,由多个智能体(Agent)组成,每个智能体都有特定的技能和工具。智能体通过协作完成复杂的任务。 Task Manager Agent:负责任务的拆解和分配策略。 Coordinator Agent:负责智能体之间的分工和协作。 Worker Nodes:具体的执行者,负责完成分配给它们的任务。 并行处理:Eigent 基于并行处理提升任务执行效率。任务被拆分为多个子任务,子任务能同时由不同的智能体执行,不是传统的单智能体串行执行方式。 动态任务拆分与重新规划:在任务执行过程中根据智能体的状态和任务的进展动态地拆分任务。如果某个智能体遇到问题或任务失败,系统自动重新规划任务,甚至创建新的智能体节点完成任务。 * 访问 Eigent 官网:访问 Eigent 官方网站: https://www.eigent.ai/,根据操作系统选择下载对应版本。 * 登录账户:按提示完成注册和登录。 * 创建任务:登录后,点击“Create New Task”,输入任务名称和描述。 * 选择或自定义智能体:选择预定义的智能体或自定义智能体满足任务需求。 * 配置任务参数:根据任务需求,输入关键词、上传文件或指定其他参数。 * 启动任务:配置完成后,点击“Start Task”按钮启动任务。 * 监控任务进度:在任务管理界面实时查看任务进度,必要时进行人为干预。 * 查看任务结果:任务完成后,在任务管理界面查看详细结果。

3. AI-Compass

AI-Compass 致力于构建最全面、最实用、最前沿的AI技术学习和实践生态,通过六大核心模块的系统化组织,为不同层次的学习者和开发者提供从完整学习路径。

🌟 如果本项目对您有所帮助,请为我们点亮一颗星!🌟

📋 核心模块架构:

📚 适用人群: