AI-Compass前沿速览:ChatGPT Agent、Kimi2、Mistral语音模型、Grok AI情感陪伴、百度Tizzy、有言数字人

AI-Compass前沿速览:ChatGPT Agent、Kimi2、Mistral语音模型、Grok AI情感陪伴、百度Tizzy、有言数字人

1.每周大新闻

OpenAI正式发布ChatGPT Agent!

OpenAI正式发布ChatGPT Agent功能,整合Operator、Deep Research和ChatGPT本体,用户描述任务后它能自主完成,过程可视且支持中断修改。

Snipaste<em>2025-07-19</em>15-46-57.png

亮点

应用场景

能浏览网站、筛选结果、运行代码、执行分析,完成PPT、电子表格等任务,涉及购物、生成贴纸下单明细、汇总测试表现制作PPT等。

性能表现

在多个基准测试中刷新纪录,在部分任务输出质量达或超人类水平,优于其他模型。

上线安排

Pro用户当天获得访问权限,Plus与Team用户未来几天开放,企业版和教育版未来几周上线。

Kimi K2 的工具调用能力

Kimi Playground正式上线,为开发者带来便捷的工具调用能力体验平台。

Snipaste<em>2025-07-19</em>15-48-16.png

工具调用

让AI从单纯对话助手升级为能调用各种工具的智能助理,如查询天气。

全新体验

为开发者提供直观界面、丰富工具集、可视化调用过程和实时结果展示,有便捷调试体验。

实际案例

旅游行程规划:调用多工具生成上海到北京5天4晚详细行程表;Excel数据分析:调用工具解析数据、统计处理并输出报告。

开发者价值

具有多重价值,开发者可访问平台,选择工具开始对话测试,官方将持续优化。

Kimi+有言,AI一键生成专业3D数字人

利用Kimi和有言工具制作3D数字人的方法。

步骤

意义

AI拆掉教育创作“隐形门槛”,将教学从“技术型创作”变为“表达型创作”,让创作者更关注内容。

Mistral首个开源语音模型来了!全面碾压Whisper

7月16日,AI初创公司Mistral AI发布首个开源语音模型Voxtral语音理解模型系列,包含24B和3B参数规模版本,基于Apache 2.0许可证开源并提供API服务接口。

Snipaste<em>2025-07-19</em>15-46-17.png

模型优势

测试表现

应用与未来

开发者可多方式试用和部署,支持企业私有化部署。未来两周将在网页和移动端语音模式向用户推出,未来几个月会增强音频处理能力并新增功能。

MiniMax Agent

MiniMax正式发布Agent全栈开发功能。

功能亮点

研发保障

由调研子Agent、全栈开发Agent、测试子Agent组成AI Dev Team,保障高交付成功率和应用质量。

其他更新

上新MCP builder功能,上线一个多月已发布12次功能更新。用户可访问https://agent.minimax.io/体验。

Tizzy.ai – 百度推出的AI智能搜索助手

百度推出的AI智能搜索助手Tizzy.ai。

核心亮点

无广告,界面简洁,底部导航栏仅“搜索”和“资源库”两个核心入口。

主要功能

具备智能搜索,支持深度思考、智能总结等;提供海量影视资源,可通过AI查找播放;搜索框有自动和深度两种模式;资源库含影视和短剧资源区;影视资源采用“聚合跳转”播放模式;短剧专区内容热门且更新快,支持倍速播放。

马斯克Grok这个二次元「小姐姐」

马斯克旗下Grok APP推出新功能,以及AI情感陪伴赛道发展情况。

Snipaste<em>2025-07-19</em>15-45-15.png

核心事件

时间地点

时间为2025年7月15日凌晨,未提及地点。

人物角色

马斯克,Grok用户、开发者,X网友hedgedworld、Anthony Franco等。

Qwen Chat 桌面版

核心内容

通义千问Qwen首页可直接开聊,能解锁多种功能,论文、技术博客及模型API可在qwen.ai获取。不仅有网页端,还能下载桌面端,支持一键唤起MCP直接调用。可一站式搞定日常提问、内容创作和复杂问题处理。

2.每周项目推荐

ai-engineering-hub

简介

AI Engineering Hub 是一个开源的 AI 工程资源平台,聚焦大语言模型(LLM)、检索增强生成(RAG)、AI 智能体等领域,提供深入教程、代码示例及

核心功能

技术原理

应用场景

语流软著宝

简介

语流软著宝是一款专注于提高软件著作权登记效率的AI智能工具,可在30分钟内自动生成定制化申报材料(包括《软件操作说明书》《源代码文件》《申请表》等),提供5张以上专业产品示意图及超3000行原创代码文档,并内嵌预审功能识别风险,显著提升申报成功率。平台服务覆盖独立开发者、小微团队、科技型企业等用户,助力省心、省时、省钱完成软著申报。

核心功能

技术原理

基于AI内容生成技术(自然语言处理、结构化文档生成算法),结合用户输入的项目信息自动生成定制化申报材料;通过专业UI设计工具或算法生成符合版权局标准的产品示意图;利用代码生成算法(如基于项目需求的代码片段组合与原创性优化技术)生成3000+行专属代码;内嵌规则引擎(整合资深知识产权顾问经验的风险评估模型)实现材料预审,识别代码独创性、材料完整性等潜在问题。

应用场景

RoboBrain 2.0 – 智谱

简介

RoboBrain 2.0是由北京智源人工智能研究院(BAAI)开发的开源具身视觉语言基础模型,旨在统一物理环境中复杂具身任务的感知、推理与规划能力。模型包含轻量级7B和全尺寸32B两种变体,采用异构架构(视觉编码器+语言模型),在空间推理(如可达性预测、空间指称)和时间决策(如闭环交互、多智能体长程规划)等任务中表现优异,超越多数开源及专有模型,是当前最强大的开源具身智能模型之一。

 

核心功能

技术原理

应用场景

RoboOS 2.0 – 智谱

简介

RoboOS是首个开源具身操作系统,基于大脑-小脑分层架构,旨在解决多智能体协作中跨实体适应性差、任务调度低效及动态纠错不足等问题。其核心通过具身大脑模型(多模态大语言模型)、小脑技能库(模块化即插即用工具包)和实时共享内存(时空同步机制)的协同,支持长程任务的规划、调度与纠错,以及多智能体高效协作,并优化了边缘-云通信与分布式推理,适用于餐厅、家庭、超市等多场景的异构实体协作。

 

核心功能

技术原理

RoboOS采用大脑-小脑分层架构:

应用场景

文兜智写 – AI标书编写平台

简介

文兜智写是专注于招投标领域的AI标书编写平台,旨在解决投标人痛点。其依托海量行业资料(100万+行业资料,同步32省694地市政策)和行业级模型,支持快速生成符合要求的标书内容(10分钟完成10万字投标方案),已服务超百万用户,具备企业云部署和私有化定制能力,拥有良好用户口碑及行业合作基础。

核心功能

技术原理

基于海量行业语料库(100万+行业资料)及行业级AI模型,结合实时同步的32省694地市政策数据,通过5代算法迭代与100+小版本优化,实现招标文件的精准解析与标书内容的智能生成,同时遵循《投标文件编制规范》团体标准(T/CASME 613-2023)。

应用场景

SendShort – AI视频编辑工具

简介

SendShort是一款基于AI技术的短视频创作工具,专注于帮助内容创作者、电商品牌及视频编辑机构等快速生成、编辑和发布短内容。其核心优势在于通过AI自动化处理视频剪辑、字幕生成、多语言翻译、无脸视频制作等流程,显著缩短创作时间(单视频生成<1分钟),支持从长视频提取片段、自动添加字幕/表情字幕、AI语音生成等功能,目前已服务超10万创作者,提供月费15美元起的订阅服务。

核心功能

技术原理

SendShort依托多模态AI技术实现功能自动化:

应用场景

Agnes AI- AI协作办公平台

简介

Agnes AI 是基于 AI 的新一代协作办公平台,专注于团队协作场景,通过团队记忆、智能协作和一体化内容生成等功能,打造适配团队的工作空间,旨在改变传统办公模式,优化单点生产力并重构组织级知识流转与项目协同方式。

核心功能

技术原理

Agnes AI 基于自研 7B 推理模型和多智能体推理框架(CodeAgents 框架),专注于团队协作场景,通过长上下文记忆技术支持多轮推理,降低 Token 成本并提升任务完成率。

应用场景

Voxtral – Mistral AI开源的语音模型

简介

Voxtral 是 Mistral AI 推出的先进音频模型,具备语音转录、深度理解及多语言支持能力,提供 24B(生产规模)和 3B(本地部署)两种版本,性能超越现有开源模型和专有 API 且成本更低,推动语音作为自然人机交互方式的普及。

 

 

核心功能

技术原理

基于深度学习与 Transformer 架构,通过大量语音数据训练实现精准语音识别;采用共享模型架构与多语言训练数据支持跨语言自动识别;利用 32k token 长文本上下文提升语义理解准确性;集成语音识别(ASR)与自然语言理解(NLU)为端到端模型,减少多步骤处理的复杂性和错误率。

应用场景

VikingDB – 火山引擎推出的大规模云原生向量数据库

简介

VikingDB是火山引擎提供的云原生向量数据库,专注于海量高维向量数据的高效存储与检索,支持百亿级向量毫秒级检索,覆盖多模态数据处理,助力RAG、推荐、搜索、记忆、标注、客服等场景。

核心功能

技术原理

应用场景

axolotl 训练框架

简介

Axolotl是一个旨在简化AI模型后训练流程的工具,支持多种主流模型(如LLaMA、Mistral、Mixtral等)及多样化训练方法(全微调、LoRA、QLoRA、QAT、偏好微调、强化学习等),具备易配置(单YAML文件管理全流程)、性能优化(Flash Attention、多GPU训练)、灵活数据集处理(本地/HuggingFace/云存储)及云就绪(Docker镜像/PyPI包)等特性,适用于从基础到高级的模型微调任务。

核心功能

技术原理

Axolotl基于HuggingFace Transformers框架,针对因果语言模型设计后训练流程。技术上集成参数高效微调(PEFT)技术(如LoRA/QLoRA),通过低秩矩阵分解减少可训练参数;采用Flash Attention、Xformers等注意力机制优化技术降低计算复杂度;结合FSDP(完全分片数据并行)、DeepSpeed等分布式训练框架实现多GPU/多节点扩展;支持序列并行(SP)以扩展上下文长度;通过YAML配置文件统一管理数据预处理(如alpaca格式解析)、模型加载(8bit/4bit量化)、训练超参数(学习率/批次大小)及后处理(LoRA权重合并)流程,确保全链路标准化。

应用场景

Excel MCP Server

简介

Excel MCP Server 是一个基于 Model Context Protocol(MCP)的服务器工具,允许在无需安装 Microsoft Excel 的情况下,通过 AI 代理或其他系统实现 Excel 文件的创建、读取、修改等操作。支持多种数据操作与格式设置功能,并提供 stdio、可流式 HTTP 及 SSE(已弃用)三种传输方式,适用于本地或远程场景。

核心功能

技术原理

Excel MCP Server 基于 Model Context Protocol(MCP)实现,通过服务器端处理客户端的 Excel 操作请求。底层采用 Python 语言开发(支持 Python 3.10),通过协议适配不同传输方式:stdio 直接通过标准输入输出交互;可流式 HTTP 支持远程连接,通过环境变量指定文件存储路径和服务端口;SSE(Server-Sent Events)已弃用。服务器通过封装 Excel 文件操作逻辑(如数据读写、格式设置、图表生成等),提供标准化接口供客户端调用。

应用场景

3. AI-Compass

AI-Compass 致力于构建最全面、最实用、最前沿的AI技术学习和实践生态,通过六大核心模块的系统化组织,为不同层次的学习者和开发者提供从完整学习路径。

🌟 如果本项目对您有所帮助,请为我们点亮一颗星!🌟

📋 核心模块架构:

📚 适用人群: