AI Compass前沿速览:gemini-StorybookAI故事、gpt-oss推理模型开源、Qwen-Image文生图、RedOne社交大模型、小米MiDashengLM

AI Compass前沿速览:gemini-StorybookAI故事、gpt-oss推理模型开源、Qwen-Image文生图、RedOne社交大模型、小米MiDashengLM

AI-Compass 致力于构建最全面、最实用、最前沿的AI技术学习和实践生态,通过六大核心模块的系统化组织,为不同层次的学习者和开发者提供从完整学习路径。

🌟 如果本项目对您有所帮助,请为我们点亮一颗星!🌟

1.每周大新闻

谷歌Gemini上线AI故事书功能,为儿童提供图文并茂的阅读体验

2025年8月6日,谷歌为AI聊天机器人Gemini推出“Storybook”功能,用户输入简短描述就能自动生成10页图文书籍,有文字叙述、语音朗读和配图,还支持多种艺术风格选择和上传自定义图片,全球范围上线,兼容桌面和移动设备,覆盖多语言环境。

gemini.png

gemini11.png

核心功能

技术原理

借助Gemini的自然语言处理能力理解用户输入的简短描述,生成文字内容;利用图像生成技术依据文字内容和用户选择的艺术风格绘制配图;通过语音合成技术实现语音朗读功能。

应用场景

腾讯混元 0.5B、1.8B、4B、7B模型发布

腾讯混元发布四款开源小尺寸模型,参数分别为 0.5B、1.8B、4B、7B,消费级显卡即可运行,适用于多种低功耗场景,还支持垂直领域低成本微调。

腾讯混元.png

模型特点

应用情况

已在腾讯多业务中应用,如腾讯会议 AI 小助手、微信读书 AI 问书助手利用超长上下文能力理解处理长内容;腾讯手机管家提升垃圾短信识别准确率;腾讯智能座舱助手解决车载环境痛点等。

开源生态

模型在 Github 和 Huggingface 等开源社区上线,Arm、高通等多个消费级终端芯片平台支持部署。腾讯混元持续推进开源,此前已开源多款模型,覆盖多模态,未来还将推出更多模型,共建开源生态。

DragonV2.1 – 微软推出的零样本文本到语音模型

微软推出最新零样本文本到语音模型DragonV2.1,基于Transformer架构,支持多语言和零样本语音克隆,在发音等方面显著改进,与DragonV1相比单词错误率平均降低12.8%,集成水印技术。

主要功能

支持100多种语言环境,可进行情感和口音适应、零样本语音克隆,生成快速,支持发音和口音控制及自定义词典,添加水印防滥用。

技术原理

基于Transformer架构,有多头注意力机制,支持SSML。

应用场景

用于视频创作、智能客服、教育、智能助手、企业品牌推广等。 https://techcommunity.microsoft.com/blog/azure-ai-services-blog/personal-voice-upgraded-to-v2-1-in-azure-ai-speech-more-expressive-than-ever-bef/4435233

Jenova – 专为MCP打造的首款AI Agent

Jenova是先进的人工智能平台,集成GPT - 4o、Claude和Gemini等多种AI模型,主要提供搜索、文件处理、图像识别、语音转文字等服务。

发展情况

资料未提及发展情况相关内容。

产品特点

能理解复杂查询意图,实时联网获取最新信息;支持多种文件格式的读取分析和关键信息提取;支持网络、YouTube、Reddit等多种搜索方式;具备图像理解、语音转文字功能;强调用户隐私,不使用用户数据训练。

市场定位

面向学生、研究人员、企业和个人用户,应用于文献整理、资料收集、市场调研、报告生成、信息整理、图像分析等场景。

2.每周项目推荐

gpt-oss – OpenAI开源的推理模型系列

GPT-OSS是由OpenAI推出的首个开源大语言模型系列,包含gpt-oss-120b和gpt-oss-20b两个版本。这些模型采用开放权重(open-weight)形式,并遵循Apache 2.0许可协议发布,旨在以低成本提供高性能和强大的推理能力,支持本地部署和自定义微调。其发布代表了OpenAI在开源模型领域迈出的重要一步,以促进AI研究、创新和更透明的AI发展。

chart.png

chart (1).png

核心功能

GPT-OSS模型具备卓越的推理能力、工具使用能力和指令遵循能力。它们采用思维链(Chain-of-Thought, CoT)推理方法,能够分步骤解答复杂问题,并支持浏览网页、调用云端模型、执行代码以及作为AI代理进行软件导航等高级功能。这些模型是文本专用型,但针对消费级硬件进行了优化,以实现高效部署和低延迟推理。

技术原理

GPT-OSS模型是基于GPT-2和GPT-3架构的自回归MoE(Mixture-of-Experts)Transformer模型。gpt-oss-120b包含36层(116.8B总参数),gpt-oss-20b包含24层(20.9B总参数)。模型在每个注意力块和MoE块之前应用均方根归一化(RMS Norm),并采用Pre-LN(Layer Normalization)放置。训练结合了强化学习和OpenAI内部先进技术,并进行了全面的安全训练,包括预训练阶段的有害数据过滤(如CBRN相关),以及通过审慎对齐和指令层级机制来拒绝不安全提示和防御提示注入。

应用场景

GPT-OSS模型适用于加速前沿AI研究、促进AI技术创新以及实现更安全透明的AI开发。由于其支持本地部署和在消费级硬件上运行,开发者和企业可以获得对延迟、成本和隐私的完全控制。这使得GPT-OSS非常适合需要高性能推理、精细化控制和私有化部署的各类场景,例如:开发定制化AI应用、模型微调、教育研究、探索AI代理能力以及需要避免API限制的场景。 gpt-oss的项目地址

Qwen-Image – 阿里通义千问开源的文生图模型

简介

通义千问视觉基础模型(Qwen-Image)是由阿里云QwenLM团队开发的一款20亿参数的MMDiT(Multi-Modal Diffusion Transformer)图像基础模型。该模型在复杂的文本渲染和精准的图像编辑方面取得了显著进展,旨在提供高质量的图文生成与编辑能力。

qwem-image.png

qwen-image1.png

核心功能

技术原理

Qwen-Image是一个基于MMDiT架构的20亿参数基础模型。MMDiT(Multi-Modal Diffusion Transformer)结合了扩散模型(Diffusion Model)的图像生成能力和Transformer架构处理序列数据的优势。其核心原理可能涉及:

应用场景

Qwen-Image的项目地址

AudioGen-Omni – 快手推出的多模态音频生成框架

简介

AudioGen-Omni是快手推出的一款多模态音频生成框架,能够基于视频、文本等多种输入,高效生成高质量的音频、语音和歌曲。它旨在提供一个统一的解决方案,以满足不同形式的音频内容创作需求。

核心功能

技术原理

AudioGen-Omni基于多模态扩散Transformer (MMDit) 架构,通过联合训练大规模的视频-文本-音频语料库进行学习。其核心技术包括统一的歌词-文本编码器,以及用于相位对齐的先进机制(如AdaLN),确保生成音频的连贯性和质量。这种架构使其能够理解复杂的跨模态信息,并生成与输入高度相关的音频。

应用场景

AudioGen-Omni的项目地址

Presenton – 开源AI演示文稿生成器

简介

Presenton是一个开源的AI演示文稿生成器和API,旨在提供完全由用户控制的AI演示工作流程。它允许用户在本地设备上运行AI模型,生成高质量的演示文稿,并支持定制化体验和数据隐私保护。Presenton被定位为Gamma等商业AI演示工具的开源替代方案。

核心功能

技术原理

Presenton基于AI技术,利用大型语言模型(LLM)进行内容理解和文本生成,结合图像生成模型创建视觉元素。其核心原理包括:

应用场景

Presenton的官网地址

Wuhr AI Ops – AI运维管理平台,提供一站式运维解决方案

简介

Wuhr AI Ops 是一款现代化的人工智能驱动智能运维管理平台,旨在通过集成AI技术,简化复杂的运维任务。它提供一站式运维解决方案,能够赋能IT运维团队,提升操作效率和管理水平。

核心功能

技术原理

Wuhr AI Ops 的核心技术原理是利用人工智能,特别是多模态AI和自然语言处理(NLP)技术,实现运维工作的智能化和自动化。它通过AI模型对运维数据(如日志、监控指标、用户指令)进行深度学习和分析,从而实现智能决策、故障预测、根因分析以及自然语言交互式操作。平台集成了智能决策引擎和自动化编排能力,将人工经验转化为可执行的自动化流程,提高运维效率和系统稳定性。

应用场景

Wuhr AI Ops的项目地址

ScreenCoder – 开源的智能UI截图生成前端代码工具

简介

ScreenCoder是一个开源的智能UI截图转代码系统,旨在将任何UI设计截图或设计稿快速转换为整洁、可编辑的HTML/CSS前端代码。它通过先进的AI处理框架,实现从视觉界面到可生产代码的自动化生成,显著提升前端开发效率。

核心功能

技术原理

ScreenCoder的核心技术基于模块化多智能体架构(Modular Multimodal Agents),这使得系统能够对输入的UI截图进行多维度AI处理。其流程通常包括:

应用场景

ScreenCoder的官网地址

MiDashengLM – 小米开源的高效声音理解大模型

简介

MiDaShengLM-7B是小米研究(Xiaomi Research)开源的多模态语音AI模型,参数规模为70亿,专注于音频理解和推理。该模型旨在通过整合先进的音频编码器和大型语言模型,实现对语音、环境声音和音乐元素的全面理解。它代表了小米在语音AI领域的重要进展,并已面向全球社区开放。

核心功能

技术原理

MiDaShengLM-7B的核心技术原理是其独特的集成架构:

应用场景

MiDashengLM的项目地址

Animated Drawings – Meta AI推出的AI手绘作品转动画工具

简介

Animated Drawings 是 Meta AI (Facebook Research) 推出的一个开源项目和在线工具,旨在利用人工智能技术,将静态的手绘人物画作自动转化为生动的动画。该项目提供了一套完整的工具和算法,使用户能够轻松地将自己的创意草图赋予生命。

核心功能

技术原理

Animated Drawings 的核心技术原理是基于计算机视觉和AI算法对图像进行处理和理解。

应用场景

Animated Drawings的项目地址

RedOne – 小红书推出的社交大模型

简介

根据提供的链接,ai-bot.cn 是一个创新型人工智能平台,提供一系列AI驱动的工具和解决方案,旨在提升生产力、优化流程并提供数据分析。同时,arXiv.org 是一个开放获取的学术论文预印本库,涵盖物理学、数学、计算机科学等多个领域,是研究人员分享最新研究成果的重要平台,尽管其内容未经同行评审。

小红书.png

核心功能

技术原理

ai-bot.cn 提供的AI服务很可能基于机器学习(ML)自然语言处理(NLP) 等技术,通过训练模型实现自动化、数据分析和智能交互。其中可能涉及神经网络结构设计激活函数选择梯度优化技术以及损失函数构建等机器学习核心原理。针对特定应用,如聊天机器人,可能运用到对话管理系统意图识别等技术。虽然具体论文内容未直接获取,但arXiv上相关的AI研究广泛涉及梯度下降等优化算法,这是深度学习训练的基础。

应用场景

Skywork MindLink – 昆仑万维开源的推理大模型

简介

MindLink是由昆仑万维(Kunlun Inc.)SkyworkAI团队开发的一系列大型语言模型。这些模型基于Qwen架构,并融合了最新的后训练技术,旨在提供在多种AI场景中表现卓越的通用能力。MindLink系列模型目前包含32B和72B等不同参数规模的版本,支持长达128K的上下文长度。

核心功能

技术原理

MindLink模型基于Qwen架构进行开发,并在此基础上集成了SkyworkAI团队在后训练(Post-training)方面的最新进展。这意味着模型在基础预训练之后,通过特定的微调、指令跟随或强化学习等技术进一步提升了其性能和泛化能力。其支持的128K上下文长度表明模型采用了高效的注意力机制或位置编码技术,使其能够处理远超传统模型的长序列输入,从而更好地理解复杂语境和长文本信息。模型在Hugging Face上提供不同量化版本的下载,暗示其在部署和效率方面也进行了优化,以适应不同的硬件环境。

应用场景

Skywork MindLink的项目地址

* MindLink-32B:https://huggingface.co/Skywork/MindLink-32B-0801 * MindLink-72B:https://huggingface.co/Skywork/MindLink-72B-0801

3. AI-Compass

AI-Compass 致力于构建最全面、最实用、最前沿的AI技术学习和实践生态,通过六大核心模块的系统化组织,为不同层次的学习者和开发者提供从完整学习路径。

🌟 如果本项目对您有所帮助,请为我们点亮一颗星!🌟

📋 核心模块架构:

📚 适用人群: