AI Compass前沿速览:Qwen3模型升级、字节GR-3机器人、TRAE SOLO、JoyAgent OxyGent京东智能体框架、智谱Z.ai炫酷PPT制作

AI Compass前沿速览:Qwen3模型升级、字节GR-3机器人、TRAE SOLO、JoyAgent OxyGent京东智能体框架、智谱Z.ai炫酷PPT制作

1.每周大新闻

qwen3 开源新模型

qwen1.png

7月22日重大更新:推出Qwen3 - 235B - A22B - FP8非思考模式(Non - thinking)的更新版本,命名为Qwen3 - 235B - A22B - Instruct - 2507 - FP8。该版本甩掉“混合思考模式”,分家训练后效果提升,总参数量仅占Kimi K2 1T规模的四分之一,但基准测试性能超越Kimi K2,通用能力显著提升,在指令遵循、逻辑推理等多方面表现出色,超过Kimi - K2、DeepSeek - V3等开源模型。

7月23日:阿里云正式发布 Qwen3-Coder,推出最强大版本 Qwen3-Coder-480B-A35B-Instruct,这是一个 480B 参数激活 35B 参数的 MoE 模型,原生支持 256K token 的上下文并可通过 YaRN 扩展到 1M token,拥有卓越的代码和 Agent 能力,有卓越代码和 Agent 能力;开源命令行工具 Qwen Code;从数据、上下文、合成数据三方面扩展预训练;在真实代码任务和长视野任务上进行后训练;介绍了 Qwen Code、Claude Code、CLINE 的使用配置方法及 Demo 示例,还给出百炼 API 平台调用示例代码。Qwen3-Coder 在多个任务上取得开源模型 SOTA 效果,可与 Claude Sonnet4 媲美,有望在编程领域广泛应用,解放人类生产力。

qwen0.png

其他相关

链接:https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507

OpenReasoning-Nemotron – 英伟达开源的系列推理模型

OpenReasoning - Nemotron基于DeepSeek R1 0528模型蒸馏,参数规模有1.5B、7B、14B和32B。在数学、科学和代码推理任务表现卓越,支持“重型”推理模式。其功能包括高效推理、多模型规模、本地运行等;技术原理涉及大规模数据蒸馏、有监督微调、多智能体推理等;项目地址在HuggingFace模型库。

Seed Research│通用机器人模型GR-3

字节跳动旗下的GR-3视觉-语言-动作(VLA)模型及其配套的ByteMini双臂移动机器人,该系统旨在实现端到端的高级机器人操作。同时,其中一个链接涉及微信公众号文章的创建与内容策略,但由于其内容获取限制,本次总结将侧重于GR-3系统。

gr-3.png

核心功能

gr3.png

gr3-1.png

技术原理

GR-3采用了一种多源数据混合训练的策略,以实现其强大的泛化和适应能力:

应用场景

寻智-具身智能

寻智-具身智能.png

2025年,具身智能领域头部企业千寻智能完成近6亿元PreA+轮融资,由京东领投,中网投、浙科创母基金等跟投,P7、顺为等老股东超额追加投资,高鹄资本担任独家财务顾问。 千寻智能构建“技术壁垒+商业化能力+团队基因”三维核心竞争力,以需求为导向构建商业化护城河,创始团队“铁三角”配置保障落地。 2025年6月发布搭载自研VLA模型的全力控人形机器人Moz1,实现硬件性能突破,VLA模型也持续迭代升级,形成软硬件融合优势。 国金证券称具身智能迎来产业化落地关键期。千寻智能将坚持“技术突破与场景落地”双轮驱动,加大投入提升产品性能,推进产业化交付与场景拓展。

TRAE SOLO – 字节

trae.png

字节跳动旗下AI编程助手TRAE推出AI自动开发工程师TRAE SOLO,SOLO模式支持高度自动化开发,AI可执行从需求理解到部署的全流程。

功能特点

具备需求理解与任务拆解、代码生成与编辑等功能,集成多工具,有实时跟随功能,支持多模态输入和智能体交互。

使用方式

国际版需订阅Pro套餐并获邀请码,国内版加入等候名单获邀请码,安装Trae IDE后进入SOLO模式,输入需求并监控进度等。

应用场景

适用于Web和移动应用开发、数据处理分析、文档生成管理、自动化运维等场景。

开放情况

国际版SOLO模式对已订阅Pro套餐且获邀请码用户开放,国内版开放等待名单可预约。

MirageLSD – Decart AI推出的实时视频生成模型

Decart AI团队推出全球首个Live - Stream Diffusion(实时流扩散)AI视频模型MirageLSD,可实现无限时长实时视频生成。

视频.png

产品优势

技术原理

后续计划

夏季将定期进行模型升级和功能更新,包括面部一致性、语音控制和精确对象控制等。

链接:https://about.decart.ai/publications/mirage

PPIO发布《2025年上半年国产大模型调用量十大趋势》

PPIO发布《2025年上半年国产大模型调用量十大趋势》。

ppio.png

ppio1.png

模型趋势

图像视频生成趋势

其他趋势

阿里将发布首款自研AI眼镜

近日,阿里巴巴即将推出一款AI眼镜,该产品将涵盖市面上多数同类产品的基础功能,包括语音助手、音乐播放、电话通话、实时翻译以及会议纪要等实用功能。这款AI眼镜还将深度整合阿里巴巴生态体系中的多项服务,例如地图、支付和购物等。知情人士表示,高德地图、支付宝、淘宝等团队均参与了该项目的技术支持与功能开发。

在AI能力方面,该产品将基于通义千问大模型提供基础能力,同时夸克团队将针对学习、健康等特定领域训练垂直领域的AI模型。从硬件配置来看,这款AI眼镜的性能将超越Ray-Ban Meta智能眼镜。产品将推出两个版本:一款为不带显示功能的纯AI智能眼镜,另一款则为具备增强现实(AR)功能的AI+AR眼镜,后者为优先推进版本。硬件方面,该眼镜将采用高通骁龙AR1芯片与恒玄BES2800芯片组成的双芯片架构。

这款AI眼镜是阿里巴巴在2024年底整合AI To C业务后推出的首款AI硬件产品,被视为阿里AI To C战略的进一步延伸。该项目由天猫精灵硬件团队与夸克AI研发团队联合推进,主要负责人为阿里巴巴智能信息事业群智能终端业务负责人宋刚。他曾担任多款华为旗舰手机的主架构师,拥有丰富的智能硬件研发经验,主导过智能手机、游戏设备、机器人、XR设备及家庭移动终端等全系列智能硬件产品的开发工作。

零一万物企业级 Agent

7月22日,零一万物于北京举办产品发布会,CEO李开复等发布万智企业大模型一站式平台2.0版本,推出企业级Agent智能体。

零一万物.png

零一万物1.png

万智2.0平台与企业级Agent

万智2.0推出的企业级Agent以“超级员工”为定位,具备深度思考和任务规划能力。其发展路径预计经历工作流Agent、推理Agent、多智能体Multi - Agents三个层级,零一万物的企业级Agent已步入L2阶段。该Agent能执行复杂综合任务,具备智能决策、专业进阶、自主晋升能力;可精准调用工具,实现互通互联;支持私有化部署,有结果校验机制保障安全。

企业战略与合作

零一万物以“一把手工程”为核心战略,由李开复牵头,搭建战略咨询团队,与龙头企业合作,找场景、调模型、搭应用。还将携手创新工场生态兄弟企业打造解决方案。

应用落地情况

万智平台“超级员工”已在招商、金融、销售、游戏等领域落地,如万智招商专家、保险顾问、超级销售、游戏制作人等,提升了业务效率和客户满意度。零一万物大模型ToB解决方案已与能源、游戏、法律等领域头部客户达成合作。

Seed LiveInterpret 2.0 – 字节跳动Seed推出的同声传译模型

字节跳动 Seed 团队推出的端到端同声传译模型 Seed LiveInterpret 2.0,支持中英双向翻译,具备接近真人水平的翻译准确率和极低延迟,能“边听边说”实时翻译,还支持零样本声音复刻。该模型已通过火山引擎对外开放,Ola Friend 耳机 8 月底将接入。

seed语音.png

模型特点

技术原理

应用场景

适用于国际会议、多语言直播、远程教育、跨国商务交流、旅游与文化交流等。

2.每周项目推荐

ai-app-lab-字节

简介

火山方舟AI App Lab是一个面向中小企业开发者的平台,旨在通过提供高代码SDK Arkitect和丰富的原型应用代码,帮助开发者快速构建符合自身业务场景的AI大模型应用,从而打通大模型应用落地的“最后一公里”。

豆包.png

核心功能

技术原理

基于高代码SDK Arkitect,AI App Lab抽象了AI大模型应用的开发复杂性,提供组件化、模块化的开发方式。它整合了火山方舟的大模型能力,通过预置的接口和工具,实现大模型推理、数据处理和业务逻辑的集成。其核心在于通过封装底层技术细节,使开发者能够聚焦于业务需求而非复杂的模型算法与部署流程。

应用场景

链接:https://github.com/volcengine/ai-app-lab/tree/main

智谱Z.ai 生成PPT

简介

智谱Z.ai是综合性的AI工具平台,提供从内容创作到办公效率提升的各类AI服务,特别强调了AI在自动化演示文稿生成与总结方面的能力。AI技术正日益成为提升个人和企业工作效率、优化创作流程的关键驱动力。

核心功能

技术原理

应用场景

Snipaste<em>2025-07-24</em>20-09-24.png

Snipaste<em>2025-07-24</em>20-09-42.png

Z.ai 做的不是那种传统意义上的 PPT,它生成的是网页 Slides 。不是套个模板糊点字,而是用 HTML 把页面搭起来,再由模型去安排内容和结构。背后是 GLM-Experimental 系列模型的强力支撑,具备“表达+执行”双能力的底层引擎: * 输入:Agent前沿报告 * 效果:https://chat.z.ai/space/d0f5u67gd3k0-ppt

""" 提示词:电动汽车价格设定规律分析 - 市场营销团队商业汇报

目标: 创建一份15页以上的PPT文档,为市场营销团队提供关于公司新产品定价的参考。确保内容丰富、配图准确且风格匹配汽车领域,使整体呈现有力且观感良好。

核心部分:

开场引入(1-2页) - 简短介绍电动汽车市场现状及其重要性。 价格设定背景(2-3页) - 分析影响电动汽车价格的关键因素及当前市场的基本情况。 汽车价格分类(3-4页) - 依据不同标准(如品牌、车型、电池容量等)对电动汽车进行价格分类,并附上实例。 定价趋势(2-3页) - 探讨电动汽车定价的趋势,包括过去几年的变化和未来预测。 定价与受众心理匹配分析(2-3页) - 分析不同定价策略如何影响消费者的购买决策过程。 定价建议(2-3页) - 根据前面的分析,提出具体的定价建议以适应市场需求和竞争状况。 整体总结(1-2页) - 总结要点,强调关键信息并提供下一步行动指南。 注意:

确保所有数据和案例都是最新的,并真实可靠。 使用适合手机观看的图表和图片,保证清晰度的同时也要注重美观。 整个PPT应该具有连贯性和逻辑性,便于市场营销团队理解并应用于实际工作中。 """

Chat Memo

简介

Chat Memo是一个专为AI时代用户设计的对话管理工具,旨在聚合并统一管理用户在ChatGPT、DeepSeek、Gemini等多个主流AI平台上的零散对话记录。它致力于构建一个私密、可随时检索的“AI记忆中枢”,帮助用户将与AI的互动沉淀为可积累的个人智慧资产,从而提升工作效率和自我认知。

核心功能

技术原理

Chat Memo的核心技术原理在于其多源AI对话数据的聚合、高效索引与检索机制。它通过与各类AI对话平台进行集成,实现对话内容的自动捕获和同步。尽管未公开具体AI模型,但其“智能搜索”和未来计划中的“意图理解”功能,暗示了其在后台可能运用了自然语言处理 (NLP) 技术,对对话内容进行语义分析和信息抽取,以便用户能够通过关键词准确检索,并可能利用大型语言模型 (LLM) 的能力进行对话总结和洞察提炼。其强调的本地存储模式,确保了用户数据的隐私性和安全性,意味着大部分数据处理和存储逻辑在客户端完成。

应用场景

Fogsight (雾象)

简介

雾象 (Fogsight) 是一个由大型语言模型(LLM)驱动的AI动画生成智能体,旨在将用户的抽象概念或词语转化为高质量、生动的动画作品。它能够实现“概念即影像”的创新功能,为用户提供一种全新的动画创作方式。

Snipaste<em>2025-07-24</em>20-07-12.png

核心功能

技术原理

雾象的核心技术原理是其“大型语言模型(LLM)驱动”的架构。LLM负责解析和理解用户输入的自然语言描述,将其转化为动画制作所需的具体指令和视觉元素。这可能涉及到以下步骤:

应用场景

官网:https://github.com/fogsightai/fogsight

Nerd AI – 智能学习应用

简介

Nerd AI 是一款强大的AI学习辅助应用,旨在提升用户的学习效率,并为学习和工作提供智能支持。它主要通过人工智能技术,帮助用户快速解决数学难题、辅助写作和进行文档处理。

核心功能

技术原理

Nerd AI 的核心技术原理可能涉及:

应用场景

官网:https://nerdai.app/

宣宝 – AI写作

简介

宣宝App (xuanbaoapp.com):这是一个专为教育培训机构设计的综合性管理系统。它旨在通过一个应用程序解决机构运营中的多个核心场景,提高管理效率和招生转化率。

核心功能

技术原理

应用场景

官网: https://xuanbaoapp.com/

Copy2AI – AI创作

简介

Copy.ai 是一款领先的AI内容创作平台,旨在帮助个人和企业提升工作与创作效率。它整合了AI驱动的多种功能,包括智能剪贴板、内容创作助手和智能聊天助手,能够自动化内容营销流程、激发创作灵感,并支持多语言内容生成和优化,尤其适用于市场营销和销售团队。

核心功能

技术原理

Copy.ai 的核心技术基于先进的大型语言模型 (LLMs),如OpenAI的GPT-3/GPT-4等,通过深度学习和自然语言处理 (NLP) 技术实现内容的理解、生成与优化。平台利用机器学习算法分析用户输入和上下文,生成符合语境、具有创造性和连贯性的文本。其GTM AI平台架构支持预设工作流和API接口,确保高效集成和数据流通。

应用场景

官网: https://copy2ai.com/

CatchMe – AIGC检测工具

简介

CatchMe 是一款专业的AIGC(AI生成内容)检测工具,主要用于识别图片、视频和音频是否由人工智能生成,并提供详细的检测结果,包括AI生成的概率。

核心功能

技术原理

CatchMe 的技术原理主要基于对AIGC生成内容的特征分析。这通常涉及:

应用场景

官网:https://catchme-ai.com/image

Decopy AI – 免费AI内容检测

简介

Decopy AI 是一款多功能的在线人工智能工具,主要致力于提升写作效率、确保内容原创性与学术诚信。它不仅提供免费的AI内容检测服务,还能辅助用户进行内容改写、总结,并提供AI数学解题功能,旨在为用户提供全面、便捷的AI写作与学习解决方案。

核心功能

技术原理

Decopy AI 的核心技术基于先进的自然语言处理(NLP)技术。通过深度学习模型和算法,对文本进行语义分析、模式识别和语言特征提取,从而实现对AI生成内容的精准识别,以及对文本进行人化改写和总结。其数学解题功能则可能运用了符号计算、机器学习和知识图谱等技术来解析和步骤化数学问题。

应用场景

官网:https://decopy.ai/

刺鸟创客 – AI内容创作平台

刺鸟创客则是一款专业高效的AI内容创作平台,致力于为用户提供智能化写作和内容处理服务。

核心功能

刺鸟创客 (CiniaoAI):

技术原理

刺鸟创客 (CiniaoAI):

应用场景

刺鸟创客 (CiniaoAI):

官网:https://www.ciniaoai.com/

JoyAgent-JDGenie – 京东开源的通用多智能体系统

简介

JoyAgent-JDGenie是京东开源的首个高完成度、轻量化通用多智能体产品。作为一个完整的端到端智能体系统,它无需二次开发即可直接使用,旨在提供强大的多智能体协作能力,并为开发者提供快速构建智能应用的工具。该项目在GAIA基准测试中表现优异,准确率达到75.15%,位居行业前列。

Snipaste<em>2025-07-24</em>20-13-12.png

Snipaste<em>2025-07-24</em>20-13-36.png

Snipaste<em>2025-07-24</em>20-13-19.png

核心功能

JoyAgent-JDGenie的核心功能在于其通用的多智能体协作框架,能够处理多种复杂任务。它支持开箱即用,能够快速部署,并提供了端到端的产品级解决方案。具体功能包括但不限于生成报告、构建智能客服系统、实现自动化任务以及进行复杂数据分析。

技术原理

JoyAgent-JDGenie是基于多智能体(Multi-Agent)技术构建的。它利用协同工作的多个AI智能体来分解和解决复杂问题。该系统通过集成先进的AI算法,实现了高效的任务处理和决策能力。其高性能在GAIA基准测试中得到验证,表明其在复杂推理和问题解决方面具备强大的潜力。作为一个开源框架,它提供了高度的灵活性和可扩展性,支持算法优化和本地化扩展。

应用场景

JoyAgent-JDGenie具有广泛的应用场景,主要包括:

OxyGent 京东多智能体协作框架

简介

OxyGent是由京东开源的一款先进的Python框架,旨在帮助开发者快速构建生产级智能系统。它通过将工具、模型和智能体统一成模块化的Oxy组件,提供透明且端到端的多智能体系统构建、运行和演进能力,使其无缝且高度可扩展。

京东.png

核心功能

技术原理

OxyGent的核心技术原理围绕多智能体协作展开,它构建了一个统一的框架,将大型语言模型(LLM)、工具和智能体进行集成与协调。其主要技术点包括:

应用场景

OxyGent作为多智能体智能系统开发框架,其应用场景广泛,包括但不限于:

项目官网:https://oxygent.jd.com/ GitHub仓库:https://github.com/jd-opensource/OxyGent

OpenBB – 开源AI金融分析平台

简介

OpenBB是一个开源的金融分析平台,旨在为个人和企业提供强大的投资研究工具。它由软件工程师Didier Lopes于2021年推出,最初是一个基于Python的命令行界面(CLI)工具,现已发展为包含企业级可视化界面(OpenBB Workspace)和AI功能的综合平台。OpenBB的目标是利用开源力量,降低专业金融数据的获取门槛,让用户能够进行专业级的投资研究,并支持本地部署以确保数据安全与隐私。

opnbb.png

核心功能

技术原理

OpenBB平台的技术架构主要包括:

应用场景

Mozart AI – AI音乐创作平台

简介

Mozart AI 是一款基于浏览器的AI音乐创作平台,专为音乐制作人和艺术家设计,旨在通过人工智能协同制作,帮助用户将任何音乐想法快速转化为完整的歌曲。

核心功能

Mozart AI 提供以下核心功能:

技术原理

Mozart AI 的技术原理基于以下几点:

应用场景

Mozart AI 的应用场景包括:

Seed-X – 字节跳动开源的多语言翻译模型

简介

Seed-X 是字节跳动Seed团队开源的一系列强大的多语言翻译大型语言模型(LLMs),专注于实现高效、高质量的多语言翻译。该系列模型包含一个指令微调模型和一个基于强化学习的模型(如 Seed-X-PPO-7B)。Seed-X 以其轻量级的70亿参数规模和Mistral架构,在多语言翻译任务中展现出卓越的性能,支持28种语言的双向翻译。

Snipaste<em>2025-07-24</em>20-15-27.png

核心功能

技术原理

Seed-X 模型系列主要基于以下技术原理构建:

应用场景

Finlens – AI财务管理平台

简介

Finlens是一款专为初创企业和会计师设计的AI驱动财务管理平台。它旨在简化财务流程,让复杂的财务管理变得轻松有趣。通过智能自动化和实时数据分析,Finlens替代了传统的会计软件和昂贵的人力成本,帮助用户高效地管理企业财务,确保税务合规。

核心功能

技术原理

Finlens的核心在于其人工智能驱动的能力。它通过高级算法实现金融数据自动化处理,包括对银行和信用卡交易的实时集成与智能分类。平台运用AI代理(AI Agent)技术,能够处理多样化的财务数据集,并从中提取有价值的答案和生成直观的数据可视化,从而实现对复杂财务信息的自动化分析和深度洞察。这种自动化和智能分析大大提升了财务管理的效率和准确性。

应用场景

Eko – Fellou

简介

Fellou AI推出了全球首个Agentic浏览器Fellou以及一个名为Eko的生产级JavaScript框架。Fellou AI致力于通过AI智能体技术,将繁琐的浏览器操作转化为简单的指令,实现深度搜索和自动化工作流。Eko框架则为开发者提供了一套高效、跨平台的工具,用于构建从简单命令到复杂工作流的可靠智能体(Agent)。

Eko.png

核心功能

* Agent构建: 允许开发者使用自然语言构建生产级的AI智能体。 * 跨平台兼容性: 作为一个JavaScript库,可在浏览器扩展、网页和Node.js环境中使用,支持多平台代理开发。 * 工作流自动化: 能够创建从简单命令到复杂流程的可靠智能体工作流。 * 内置工具: 提供多种内置工具,支持不同环境下的工作流操作,包括故障处理机制。

技术原理

Fellou AI的Agentic浏览器和Eko框架的核心在于AI智能体(Agentic AI)技术。

应用场景

spring-ai-alibaba

简介

Spring AI Alibaba 是由阿里云推出的首个面向 Java 开发者的开源 AI 应用开发框架。它基于 Spring AI 构建,旨在为 Java 开发者提供一套与阿里云通义系列模型和服务深度集成的最佳实践方案,帮助开发者高效、便捷地构建 AI 原生应用。该框架提供高层次的 AI API 抽象和云原生基础设施集成解决方案。

核心功能

技术原理

Spring AI Alibaba 的核心技术原理在于其作为 Spring AI 的扩展和实践,它:

应用场景

Mureka V7 – 昆仑万维推出的最新AI音乐生成模型

简介

Mureka 是昆仑万维推出的一系列 AI 音乐创作平台和模型,旨在赋能专业艺术家和音乐爱好者,通过人工智能技术创作个性化、高质量的音乐作品。该平台不仅提供便捷的创作界面,还整合了先进的 AI 模型,支持多种语言和音乐风格的生成,是 AI 音乐商用创作领域的重要工具。

核心功能

技术原理

Mureka 系列产品基于先进的深度学习和人工智能技术。

应用场景

官网:https://www.mureka.cn/

笔墨写作 – AI写作创作平台

“笔墨写作”是一款专注于文字创作的AIGC(人工智能生成内容)平台。它基于海量高质量中文数据训练,旨在通过AI技术显著提升用户的写作效率和文章质量,支持多种文体创作。

核心功能

技术原理

“笔墨写作”主要依赖于大型语言模型(LLM)和深度学习技术。通过对海量中文语料进行训练,模型能够理解复杂的语义、语境和文体特征。其核心技术包括自然语言处理(NLP),用于文本理解、生成、纠错和风格迁移,以及生成对抗网络(GANs)或变分自编码器(VAEs)等AIGC模型架构,以实现高质量、多样化的内容创作。平台通过持续学习和优化,提升其生成内容的逻辑性、准确性和流畅性。

应用场景

官网:https://www.bimoxiezuo.com/home

Workout.cool开源健身神器,人人都有专属私教

健身.png

健身2.png

夏天到了,很多人开始想要锻炼身体,但请私教费用太高,健身 App 中的动作指导又需要付费解锁,对于健身新手来说确实是个难题。

幸运的是,我在 GitHub 上发现了一个名为 Workout.cool 的开源、免费健身平台,就像是为每个人配备了一位专属的私人教练。

这个平台不仅能根据你选择的健身器材和训练部位,智能生成个性化的锻炼计划,还提供了全面的运动数据库和视频指导,帮助新手轻松入门、科学健身。

主要功能:

链接:https://github.com/Snouzy/workout-cool

Company-Research-Agent(AI公司背调)

简介

Company-Research-Agent 是一个基于多智能体框架的公司研究工具,旨在对公司进行深度尽职调查。它能够生成全面的公司研究报告,通过自动化流程收集、整理和合成相关信息。

AI公司.png

AI公司背调1.png

核心功能

技术原理

该工具的核心技术原理是其多智能体框架(Multi-Agent Framework),它通过一个智能体管道(pipeline of AI agents)协同工作。

应用场景

https://github.com/guy-hartstein/company-research-agent