AI应用

AI应用

AI应用模块汇聚了50+个细分领域的创新应用实践,构建了从AI编程到多媒体创作的完整应用生态体系。该模块系统性地展示了AI编程助手(Cursor、Codeium、GitHub Copilot、通义灵码、豆包MarsCode等10+主流平台)、AI音频TTS转换(ChatTTS、GPT-SoVITS、FunASR、SenseVoice等15+专业工具)、图像创作(Midjourney、即梦AI、快手Poify、阿里Pic Copilot等20+创意平台)、视频创作(可灵AI、腾讯智影、海螺视频、剪映等15+制作工具)等核心应用方向。

内容深入解析了AI-ETL数据处理(MinerU、PDF-Extract-Kit、字节Dolphin等智能解析工具)、AI-PPT制作(Slidev等自动化演示工具)、AI爬虫(Firecrawl、ScrapeGraphAI等智能采集框架)、ChatPDF文档问答(DocsGPT、ChatFiles等知识交互系统)等专业化应用场景的技术架构和实现方案。

模块还详细介绍了语音识别字幕生成、AI写作助手、智能办公自动化等实用工具的核心功能和使用技巧,以及开源项目的部署指南、API集成方法、性能优化策略等工程实践。此外,还提供了不同应用场景的技术选型建议、成本效益分析、用户体验优化等实用指导,以及最新技术趋势、行业应用案例、创新发展方向等前瞻性内容,帮助开发者快速构建高质量的AI应用产品,实现从创意到落地的完整开发流程。

目录

4.AI应用

------------------------------------------------------------

1.AI 编程

涵盖了WildCard、Cursor、Bolt.new等多个网站,涉及AI工具、代码辅助、开发平台等相关领域。

------------------------------------------------------------

Qwen3-Coder-Flash – 阿里通义开源的高性能编程模型

2025年阿里通义千问团队推出高性能编程模型Qwen3-Coder-Flash(全称Qwen3-Coder-30B-A3B-Instruct),具备卓越能力且已开源。

qwen3-coder-30a3-main.jpg

主要功能

技术原理

应用场景

涵盖代码生成、自动化编程、项目开发维护、教育及企业级应用等。

访问信息

可通过Qwen Chat平台访问,项目地址为https://huggingface.co/Qwen/Qwen3-Coder-30B-A3B-Instruct 。

Seed Diffusion – 字节跳动推出的扩散语言模型 专注于代码生成任务

字节跳动Seed团队推出实验性扩散语言模型Seed Diffusion Preview,专注代码生成。其推理速度达2146 tokens/s,较同等规模自回归模型快5.4倍,在多代码基准测试中性能与自回归模型相当,代码编辑任务表现更优。

技术原理

应用场景

涵盖代码自动生成、编辑与优化、教育与培训、软件开发协作、智能编程助手等。

Seed Diffusion的项目地址 项目官网:https://seed.bytedance.com/zh/seed_diffusion 技术论文:https://lf3-static.bytednsdoc.com/obj/eden-cn/hyvsmeh7uhobf/sdiff_updated.pdf

0.Trae 字节跳动

简介

Trae是一款由字节跳动开发的AI原生集成开发环境(IDE)和LLM驱动的智能代理工具,旨在通过人工智能协助开发者提高软件工程效率。它深度融合了AI大模型能力,能够理解代码上下文,提供智能辅助编码、项目管理、问题排查等一站式开发体验,从而实现更快速的软件交付。

Snipaste<em>2025-07-19</em>15-28-04.png

Snipaste<em>2025-07-19</em>15-28-13.png

核心功能

技术原理

Trae的核心技术原理在于其AI原生架构和LLM(大型语言模型)驱动的智能代理能力。它深度集成了如Doubao-1.5-pro和DeepSeek等先进的AI大模型,通过这些模型对自然语言进行理解,并将其转化为代码生成、代码分析、bug修复等具体操作。

应用场景

------------------------------------------------------------

2.Void-开源IDE-对标cursor

简介

Void是一款开源的AI代码编辑器,是Cursor的替代方案。它基于VS Code开发,允许用户使用各种AI工具编写代码,可连接任意大语言模型,还能一键转移主题、快捷键和设置,让用户对数据拥有完全控制权。

核心功能

技术原理

Void是VS Code仓库的一个分支,继承了VS Code的核心架构和功能基础。在AI功能方面,它通过直接对接各种大语言模型的API,实现AI辅助编程功能。在代码处理上,利用自身的编辑引擎结合模型的反馈,为用户提供代码补全、错误检测等功能。

应用场景

------------------------------------------------------------

5.0Code

简介

OCode 是由 Ollama 模型驱动的终端原生 AI 编码助手,能提供深入的代码库智能分析和自主任务执行功能,可无缝集成到本地 Ollama 模型,为开发工作流提供企业级 AI 辅助。

核心功能

技术原理

OCode 基于 Ollama 模型,通过直接与本地或远程 Ollama 集成,流式获取补全内容。其采用 Model Context Protocol (MCP) 实现可扩展插件层,支持第三方集成。具备先进的对话解析和多动作检测功能,能根据查询类型智能选择工具,优化上下文。

应用场景

------------------------------------------------------------

5.Cody

简介

Cody 是一款开源的 AI 编码助手,支持 VS Code、JetBrains、Visual Studio 及网页端使用。它借助先进搜索从本地和远程代码库提取上下文,结合最新大语言模型(如 Claude Sonnet 4、GPT - 4o 等),帮助开发者更快地理解、编写和修复代码。

核心功能

技术原理

Cody 运用 Sourcegraph 强大的高级搜索 API 从本地和远程代码库提取上下文信息,包括 API、符号和使用模式等。它结合最新的大语言模型(如 Claude Sonnet 4、GPT - 4o 等),利用这些上下文信息进行语义搜索,以理解代码库并为开发者提供准确的回答和代码建议。

应用场景

------------------------------------------------------------

5.Devstral-开源AI代码模型

简介

Devstral是Mistral AI与All Hands AI合作推出的用于软件工程任务的大语言模型,在SWE - Bench Verified基准测试中大幅超越所有开源模型,以Apache 2.0许可发布,具有轻量级可本地部署、适用于企业隐私敏感代码库等特点。

核心功能

技术原理

Devstral基于特定的代码代理框架(如OpenHands、SWE - Agent)进行训练,这些框架定义了模型与测试用例的接口。模型通过学习解决实际GitHub问题来提升处理软件工程任务的能力。

应用场景

------------------------------------------------------------

5.Seed-Coder

简介

Seed - Coder(原Doubao - Coder)是一系列轻量级且强大的开源代码大语言模型,包含8B大小的基础、指令和推理模型。它能让大语言模型自行整理代码训练数据,大幅提升编码能力,在多种编码任务中表现出色,是迈向开源大语言模型生态系统的重要一步。

核心功能

技术原理

基于大语言模型技术,通过模型自行整理代码训练数据,减少人工干预。采用指令调优使模型与用户意图对齐,使用强化学习提升推理能力,支持多GPU分布式服务以提高服务吞吐量。

应用场景

------------------------------------------------------------

5.aider

简介

Aider是一款可在终端实现AI结对编程的工具,能与多种大语言模型(LLM)协作,编辑本地git仓库中的代码。它支持多种安装方式,适用于多种流行编程语言,在SWE Bench等基准测试中表现出色。

核心功能

应用场景

------------------------------------------------------------

5.cline

简介

Cline是一款能使用CLI和编辑器的AI助手,借助Claude 3.7 Sonnet的代理编码能力,可处理复杂软件开发任务。它支持多种API和模型,通过提供安全的人机交互GUI,在经用户许可后执行文件更改和终端命令,还能利用模型上下文协议扩展自身能力。

核心功能

技术原理

Cline基于Claude 3.7 Sonnet的代理编码能力,利用模型上下文协议(MCP)扩展功能。它通过分析文件结构和源代码抽象语法树(AST)、运行正则搜索、读取相关文件来获取项目信息,在处理信息时会谨慎管理上下文,避免超出上下文窗口限制。

应用场景

------------------------------------------------------------

5.continue

简介

Continue 是一个开源的 AI 代码助手,旨在帮助开发者创建、共享和使用自定义的 AI 代码助手。它提供 IDE 扩展,并作为一个模型、规则、提示、文档及其他构建块的中心,让开发者能够完全控制和定制他们的 AI 辅助开发体验。

核心功能

技术原理

Continue 的核心技术原理在于其开放性和可扩展性。它作为一个开源平台,允许开发者集成不同的 AI 模型,并利用自定义的规则、提示和文档来训练和引导 AI 助手的行为。通过其提供的 IDE 扩展,Continue 能够深度集成到开发环境中,实时获取代码上下文,并利用连接的 AI 模型进行代码分析、建议生成、自动补全以及基于自然语言的交互。其模块化的设计使得用户可以根据特定需求配置不同的 AI 能力,实现高度定制化的开发工作流。

应用场景

办公小浣熊-商汤

简介

网页主要介绍了小浣熊家族的两款工具,代码小浣熊可用于编程相关操作,办公小浣熊则专注于数据分析和处理。通过使用办公小浣熊对 10000 条应届生就业数据进行分析,解答了关于就业的疑问,并为表妹制定了求职规划,同时还能将分析内容整理成文档。

核心功能

- 数据分析:检查数据质量,智能处理数据,分析各因素对就业的影响,生成可视化图表。 - 任务规划:根据用户需求生成求职规划,包括强化能力方案、作品集模板、招聘信息整理、话术模板等。 - 文档生成:起草大纲,生成分析文档,支持插入生成的内容。

应用场景

商汤-官网

gen-cli

简介

Gen CLI是基于开源Gemini - CLI,依托硅基流动SiliconCloud平台API开发的命令行AI编程工具,为国内开发者提供类似Gemini - CLI的高效编程能力,可连接工具、理解代码并加速工作流。

核心功能

技术原理

基于Gemini - CLI架构,保留其命令行解析、Prompt处理、文件操作等基本架构和功能逻辑;通过硅基流动SiliconCloud平台的API调用DeepSeek模型,利用其语言理解和生成能力执行用户命令和Prompt。

应用场景

gen-cli

Shadow – 开源的AI编程Agent

Shadow 是一个开源的AI编程Agent,旨在帮助开发者理解、推理并贡献现有代码库。它提供了一套全面的工具集,能够集成GitHub仓库,自动化生成拉取请求,管理代码分支,并提供实时的任务状态更新。该项目通过提供高级的代码操作和搜索能力,提升开发效率和协作体验。

shadow.png

核心功能

技术原理

Shadow 的核心技术原理是利用人工智能代理(AI Agent)能力来理解和操作代码库。它结合了:

------------------------------------------------------------

1.AI写作

AI写作平台:适用于需要本地化、注重隐私、且希望获得从创意到文本优化全流程辅助的个人创作者、作家、学生及专业人士。内容创作者,如小说作者、自媒体运营者、学生、职场人士等,用于快速生成各类文章、文学作品、营销文案及报告等,提升创作效率。

Snipaste<em>2025-07-19</em>15-28-55.png

Snipaste<em>2025-07-19</em>15-28-35.png

------------------------------------------------------------

91写作

简介

91写作是基于 Vue 3 + Element Plus 的专业 AI 小说创作平台,集成多种先进 AI 模型,提供从构思到成文的完整创作工具链,涵盖智能创作、世界观构建、作品管理等功能,支持多类型小说创作,让每个人都能轻松创作精彩小说。

核心功能

技术原理

前端采用 Vue 3.3.8 框架、Element Plus 2.4.2 组件库、Vue Router 4.2.5 路由管理和 Pinia 2.1.7 状态管理。借助 Vite 4.5.0 构建工具、TypeScript 开发,用 ESLint + Prettier 保证代码质量。集成 OpenAI GPT 系列、Anthropic Claude、Google Gemini 等 AI 服务,通过专业编辑器和解析器实现文本处理。

应用场景

文兜智写 – AI标书编写平台

简介

文兜智写是专注于招投标领域的AI标书编写平台,旨在解决投标人痛点。其依托海量行业资料(100万+行业资料,同步32省694地市政策)和行业级模型,支持快速生成符合要求的标书内容(10分钟完成10万字投标方案),已服务超百万用户,具备企业云部署和私有化定制能力,拥有良好用户口碑及行业合作基础。

核心功能

技术原理

基于海量行业语料库(100万+行业资料)及行业级AI模型,结合实时同步的32省694地市政策数据,通过5代算法迭代与100+小版本优化,实现招标文件的精准解析与标书内容的智能生成,同时遵循《投标文件编制规范》团体标准(T/CASME 613-2023)。

应用场景

笔墨写作 – AI写作创作平台

“笔墨写作”是一款专注于文字创作的AIGC(人工智能生成内容)平台。它基于海量高质量中文数据训练,旨在通过AI技术显著提升用户的写作效率和文章质量,支持多种文体创作。

核心功能

技术原理

“笔墨写作”主要依赖于大型语言模型(LLM)和深度学习技术。通过对海量中文语料进行训练,模型能够理解复杂的语义、语境和文体特征。其核心技术包括自然语言处理(NLP),用于文本理解、生成、纠错和风格迁移,以及生成对抗网络(GANs)或变分自编码器(VAEs)等AIGC模型架构,以实现高质量、多样化的内容创作。平台通过持续学习和优化,提升其生成内容的逻辑性、准确性和流畅性。

应用场景

官网:https://www.bimoxiezuo.com/home

刺鸟创客 – AI内容创作平台

刺鸟创客则是一款专业高效的AI内容创作平台,致力于为用户提供智能化写作和内容处理服务。

核心功能

刺鸟创客 (CiniaoAI):

技术原理

刺鸟创客 (CiniaoAI):

应用场景

刺鸟创客 (CiniaoAI):

官网:https://www.ciniaoai.com/

宣宝 – AI写作

简介

宣宝App (xuanbaoapp.com):这是一个专为教育培训机构设计的综合性管理系统。它旨在通过一个应用程序解决机构运营中的多个核心场景,提高管理效率和招生转化率。

核心功能

技术原理

应用场景

官网: https://xuanbaoapp.com/

Copy2AI – AI创作

简介

Copy.ai 是一款领先的AI内容创作平台,旨在帮助个人和企业提升工作与创作效率。它整合了AI驱动的多种功能,包括智能剪贴板、内容创作助手和智能聊天助手,能够自动化内容营销流程、激发创作灵感,并支持多语言内容生成和优化,尤其适用于市场营销和销售团队。

核心功能

技术原理

Copy.ai 的核心技术基于先进的大型语言模型 (LLMs),如OpenAI的GPT-3/GPT-4等,通过深度学习和自然语言处理 (NLP) 技术实现内容的理解、生成与优化。平台利用机器学习算法分析用户输入和上下文,生成符合语境、具有创造性和连贯性的文本。其GTM AI平台架构支持预设工作流和API接口,确保高效集成和数据流通。

应用场景

官网: https://copy2ai.com/

------------------------------------------------------------

1.AI音频TTS转换

简介

开源音频基础模型Kimi - Audio,以及Fish Audio计费、Bibigpt、Unmute.sh、Vocloner、Elevenlabs等相关音频技术或服务。

核心功能

技术原理

应用场景

------------------------------------------------------------

1.ClearerVoice-Studio-魔塔-阿里

简介

ClearerVoice - Studio 是人工智能语音处理工具包,含语音增强、分离等功能及预训练模型;KAN - TTS 是语音合成训练框架,支持多语言文本转语音模型训练;ModelScope 平台展示了众多文本转语音模型,涵盖多种语言和不同技术架构。

核心功能

技术原理

应用场景

------------------------------------------------------------

1.FunASR-魔塔

简介

FunASR是一个基础语音识别工具包,旨在搭建语音识别学术研究与工业应用间的桥梁。它支持训练和微调工业级语音识别模型,提供语音识别、语音活动检测等多种功能,还开源大量预训练模型,方便研究者和开发者开展相关工作。

核心功能

技术原理

FunASR涉及多种语音处理技术,如非自回归端到端语音识别模型Paraformer-large,利用模型结构优势实现高精度、高效率和便捷部署;SenseVoice等模型具备多语音理解能力,通过在大量工业数据上训练学习语音特征。同时,借助动态批处理、多线程并发等技术优化性能。

应用场景

------------------------------------------------------------

1.MinMax-Audio

简介

MiniMax Audio是一个先进的AI音频生成平台,专注于提供高质量的文本转语音(Text-to-Speech, TTS)和声音克隆解决方案。它旨在将文本转化为逼真、富有表现力的语音,并支持多语言和多种音色选择,为内容创作者、企业和开发者提供强大的音频内容生成能力。

核心功能

技术原理

MiniMax Audio基于先进的人工智能技术,特别是深度学习模型,实现文本到音频的转换。其核心技术可能包括:

应用场景

------------------------------------------------------------

1.字节MegeTTS

简介

MegaTTS3 是由字节跳动与浙江大学合作推出的零样本文本到语音(TTS)合成系统。它是一款轻量、高效且开源的工具,旨在提供高质量的语音生成能力,尤其擅长语音克隆和多语言(中文、英文及中英混合)语音合成。

核心功能

技术原理

MegaTTS3 采用先进的轻量级扩散模型作为核心生成架构。其关键技术包括:

应用场景

------------------------------------------------------------

AudioGPT

简介

AudioGPT项目开源了实现代码和预训练模型,具备理解和生成语音、音乐、声音及会说话头像的能力,支持多种音频处理任务,部分任务还在开发完善中。

核心功能

技术原理

项目基于多种基础模型实现不同功能,如在语音处理上使用FastSpeech、SyntaSpeech等;歌唱合成采用DiffSinger、VISinger;音频生成与处理依靠Make - An - Audio等,通过这些模型的能力来完成相应任务。

应用场景

------------------------------------------------------------

ChatTTS

简介

ChatTTS是用于日常对话的生成式语音模型,专为对话场景(如大语言模型助手)设计,支持中英文。Awesome - ChatTTS是官方推荐的ChatTTS资源汇总项目,包含快速体验、热门分支、入门教程等社区资源。

核心功能

技术原理

文档未详细提及技术原理,但提到借鉴了bark、XTTSv2和valle的自回归式系统,使用fish - speech的GVQ作为音频分词器,vocos作为预训练声码器。

应用场景

------------------------------------------------------------

GPT-SoVITS

简介

GPT-SoVITS是一个创新的文本转语音(TTS)和语音克隆项目,旨在通过极少量(如1分钟)的语音数据训练出高质量的TTS模型,甚至支持零样本(Zero-Shot)和少样本(Few-Shot)语音克隆。它支持多语言推理,包括中文、英文、日文等,并提供友好的WebUI界面,简化了模型训练和推理过程。

核心功能

技术原理

GPT-SoVITS结合了GPT模型和SoVITS模型。其核心技术原理包括:

应用场景

------------------------------------------------------------

Mozilla TTS

简介

mozilla/TTS 是一个用于高级文本到语音生成的库,基于最新研究构建,旨在在训练简易性、速度和质量之间取得最佳平衡。它具有高性能的深度学习模型,涵盖文本到频谱图、说话人编码器、声码器等多种模型,支持多语言,提供了训练、测试、推理等相关工具和资源。https://discourse.mozilla.org/c/tts 是关于TTS的讨论论坛,用于用户提问、交流使用经验、提出功能请求和进行一般讨论等。

核心功能

技术原理

应用场景

------------------------------------------------------------

SenseVoice-阿里

简介

SenseVoice是一个具有多种语音理解能力的语音基础模型,涵盖自动语音识别、语言识别、语音情感识别和音频事件检测等功能。它在多语言语音识别、情感识别和事件检测方面表现出色,具有高效推理、方便微调等特点,并提供了服务部署管道。

核心功能

技术原理

SenseVoice模型的训练使用了大量数据,采用了先进的深度学习技术,如神经网络架构和优化算法,以实现高精度的语音识别、情感识别和事件检测。其非自回归端到端框架有助于降低推理延迟。

应用场景

------------------------------------------------------------

VITA-Audio

简介

VITA-Audio是一个由VITA-MLLM团队开发的开源大型语音语言模型(Speech-Language Model)项目,专注于实现高效的音频生成和处理。它旨在提供一个端到端的语音模型,能够快速生成音频,显著提高推理速度,并致力于通过社区合作不断优化和更新。

核心功能

技术原理

VITA-Audio的核心技术在于其提出的“快速交错跨模态令牌生成”(Fast Interleaved Cross-Modal Token Generation)机制。通过利用一组预填充(prefill)令牌(例如32个),VITA-Audio能够在初始前向传播(initial forward pass)过程中快速生成音频,从而显著减少了生成首个音频块的延迟。这种方法优化了大型语音语言模型的效率,通过并行处理或优化令牌生成顺序,实现了低延迟和高吞缩量的音频输出。

应用场景

------------------------------------------------------------

parler-tts

简介

Parler-TTS 是 Hugging Face 开发的一款轻量级文本转语音(TTS)模型,能够生成高质量、自然听感,并具备特定说话者风格(如性别、音高、语调等)的语音。ComfyUI_ParlerTTS 则是基于 Parler-TTS 的一个 ComfyUI 定制节点,旨在简化 Parler-TTS 在 ComfyUI 平台上的部署和使用,提供便捷的图形化界面进行语音合成操作。

核心功能

技术原理

Parler-TTS 模型是基于 Dan Lyth 和 Simon King 提出的“Natural language guidance of high-fidelity text-to-speech with synthetic annotations”研究工作的复现。其核心技术原理在于利用自然语言指导高保真文本转语音,并结合合成标注(synthetic annotations)来训练模型。这使得模型能够理解并复现说话者的特定属性,如情感、语调和音色,从而生成高度个性化的语音。具体实现上,它是一个端到端的神经网络模型,通过训练学习文本到声学特征再到波形的映射。

应用场景

------------------------------------------------------------

MOSS-TTSD

简介

MOSS-TTSD(Text to Spoken Dialogue)是一个开源的双语语音对话生成模型,由OpenMOSS团队开发,旨在将文本对话脚本转换为自然、富有表现力的对话语音。它支持中文和英文,能够生成高质量的会话语音,准确模拟对话中的韵律和语调特征。

核心功能

技术原理

MOSS-TTSD基于Qwen3-1.7B-base模型,采用离散语音序列建模方法。该模型通过大规模数据进行训练,其中包括约一百万小时的单说话人语音数据和四十万小时的对话语音数据。这种训练方法使其能够直接从多说话人对话文本输入生成高品质的对话语音,并精细地建模对话中的特征。

应用场景

项目官网

github仓库

huggingface模型

huggingface在线体验

VibeVoice – 微软文本转语音模型

VibeVoice是微软推出的一款前沿的开源文本到语音(TTS)模型,专为生成富有表现力、长篇幅、多说话者的对话式音频而设计。它旨在解决传统TTS系统在长音频生成、多说话者连贯性和自然对话流方面的挑战,特别适用于播客、有声读物等场景。VibeVoice目前主要用于研究目的,并已开源,提供1.5B和7B参数版本。

vibevoice.png

核心功能

技术原理

VibeVoice的核心技术基于“下一词元扩散框架”(next-token diffusion framework)。它整合了一个大语言模型(LLM),例如VibeVoice-1.5B版本采用了Qwen2.5-1.5B参数的LLM,用于理解文本上下文和对话流。模型通过创新的连续语音标记化技术,即声学(Acoustic)和语义(Semantic)标记器,在超低帧率(7.5 Hz)下高效运行,从而在处理长序列时保持高音频保真度并显著提升计算效率。最后,一个扩散头(diffusion head)负责生成高保真度的声学细节。

应用场景

项目官网:https://microsoft.github.io/VibeVoice/

stable-audio-tools

核心功能

技术原理

基于PyTorch 2.5或更高版本,利用Flash Attention和Flex Attention支持,采用JSON配置文件定义模型超参数、训练设置和数据集信息。通过PyTorch Lightning实现多GPU和多节点训练,训练过程中模型会被包装在“训练包装器”中,训练完成后可通过unwrap_model.py脚本解包模型。

应用场景

------------------------------------------------------------

ThinkSound

简介

ThinkSound是一种利用思维链推理实现视频音频生成与编辑的框架,通过三个互补阶段生成和编辑音频,还引入了带结构化推理注释的数据集,在视频到音频生成任务中表现出色。

核心功能

技术原理

应用场景

ThinkSound-github ThinkSound-官网 ThinkSound-Hugging Face

KittenTTS – KittenML开源的轻量级文本转语音模型

KittenTTS是由KittenML团队开发的一款轻量级开源文本转语音(TTS)模型。该模型以其极小的体积(通常小于25MB,甚至仅1500万参数)和强大的CPU优化能力为主要特点,使其无需图形处理器(GPU)即可在低功耗设备上高效运行,旨在提供高质量、真实的语音合成。

核心功能

技术原理

KittenTTS基于先进的深度学习技术实现文本到语音的转换。其核心技术原理在于采用高效、紧凑的模型架构设计,显著减少了模型的参数量(如15M参数),从而实现了超小的模型体积。同时,通过专门的算法和优化策略,使得模型能够在仅使用CPU的情况下,依然保持高效的推理速度和高质量的语音输出,尤其适用于对计算资源和功耗有严格限制的边缘计算和嵌入式系统。

应用场景

FireRedTTS-2 – 小红书文本转语音

FireRedTTS-2 是一个先进的流式、多说话人文本转语音(TTS)系统,专为长对话生成设计,旨在解决现有对话 TTS 系统在稳定性、上下文连贯性和实时性方面的局限。它能实现低延迟、高保真、多语言的语音合成,并支持情感韵律生成和零样本语音克隆,为播客制作、聊天机器人等应用提供高质量、自然的语音输出。

red.png

核心功能

技术原理

FireRedTTS-2 核心采用双Transformer架构,结合创新的低帧率流式语音分词器(12.5Hz)。该分词器能够编码更丰富的语义信息,缩短语音序列,并支持高保真流式解码,适用于实时应用。系统通过文本-语音交错格式处理对话,将每个对话回合表示为说话人标签、文本输入和时间对齐的语音 tokens,从而实现工业规模的流式对话 TTS,有效解决稳定性、上下文传播和高效生成问题。

应用场景

IndexTTS2 – B站开源的最新文本转语音模型

IndexTTS2是一个由Bilibili开源的文本转语音(TTS)模型,被誉为情感表达和时长控制方面取得突破性进展的自回归零样本TTS系统。它能够实现音色与情绪的独立分离控制,支持多模态情感输入,并在多种语言和风格下生成自然流畅、富有表现力的语音。

IndexTTS2.png

核心功能

技术原理

IndexTTS2是一个GPT风格的文本转语音模型,主要基于XTTS和Tortoise等现有先进TTS技术构建。其核心在于实现了自回归模型中对情感表达和语音时长的精确控制,解决了传统自回归模型生成速度慢的困境。通过情感音色分离技术,模型能够将语音中的音色特征和情感特征解耦,并允许用户独立操纵,这可能涉及复杂的声学模型、情感编码器和时长预测模块。零样本能力则依赖于强大的编码器学习到丰富的声学表示,并通过注意力机制或其他方式将其迁移到新颖的语音合成任务中。

应用场景

IndexTTS2的项目地址

1.图像创作

众多AI相关工具,包括虚拟试衣、产品图像生成、创意设计、电商辅助等多种类型的AI工具平台,展示了AI技术在时尚、设计、电商等领域的广泛应用。

FLUX.1 Krea [dev] – 黑森林联合Krea AI开源的文生图模型

简介

FLUX.1 Krea [dev] 是 Black Forest Labs (BFL) 与 Krea AI 合作推出的一款最先进的开源文本到图像生成模型。作为 Krea 1 的开放权重版本,它致力于生成更逼真、多样化且具有独特美学风格的图像,旨在克服传统AI图像生成中常见的过度饱和及“AI外观”问题,从而达到新的照片级真实感水平。该模型具有“有主见”的特点,能为用户带来视觉上引人入胜的惊喜。

flux.png

核心功能

技术原理

FLUX.1 Krea [dev] 是一个拥有 120 亿参数的整流流 (rectified flow) 变换器模型,能够从文本描述生成图像。它并非基于海量数据集训练,而是通过精选的高质量训练数据进行训练,以确保卓越的审美控制和图像质量。该模型旨在生成不含过度饱和纹理的图像,这在文本到图像生成领域是一个已知问题。其“有主见”的特性体现在通过优化训练过程和数据选择,使模型在生成图像时展现出特定且优质的视觉倾向。

应用场景

FLUX.1 Krea [dev]的项目地址

简介

百度绘想(Huixiang)是一个由百度商业研发团队推出的AI视频创作平台,旨在通过人工智能技术简化视频制作流程,降低创作门槛。该平台与自研的视频生成模型MuseSteamer协同工作,使用户仅需上传一张图片即可生成专业级视频内容,极大地激发了内容创作的多样性和创意空间。

核心功能

技术原理

绘想平台的核心技术基于“生成式AI(Generative AI)”与“多模态技术(Multimodal Technology)”的融合。其中,自研的视频生成模型MuseSteamer是实现从单一图像到视频转换的关键。这意味着平台能够理解和处理不同形式的数据(如图像和潜在的文本描述),并生成连贯、高质量的视频输出。

应用场景

------------------------------------------------------------

1.视频创作

涵盖了众多与AI商业平台、视频、音乐等相关的网站,包括AI创作平台、视频编辑与创作工具网站、音乐平台等,涉及多种功能和领域。

------------------------------------------------------------

PreenCut-AI剪辑

简介

PreenCut是一个基于AI的视频检索与剪辑工具,可对视频进行内容分析,支持添加自定义分析提示,能在分析表中查看结果,还提供了Restful api用于上传文件、创建任务和查询任务结果等操作,项目采用MIT许可。

核心功能

技术原理

利用语音识别技术(如WhisperX等)将视频中的语音转换为文本,结合自然语言处理技术对文本进行分析处理,从而实现对视频内容的理解、提取关键信息、生成标签等功能。通过调整相关参数(如WHISPERBATCHSIZE)来优化处理性能,针对不同硬件环境(如CPU、GPU)选择合适的模型大小以提高处理效率。

应用场景

------------------------------------------------------------

快手-LivePortrait表情姿态迁移

简介

核心功能

技术原理

应用场景

AutoClip – 开源的AI视频剪辑工具

简介

AutoClip是一款基于人工智能的智能视频切片与合集推荐系统,旨在帮助用户高效地从长视频内容中提取精彩片段,并自动生成符合SEO优化标准的标题、描述及标签。它通过自动化流程显著提升视频内容创作效率,尤其适用于快速制作短视频和系列合集。

核心功能

技术原理

AutoClip的核心技术原理基于多模态AI和自动化处理流程。

应用场景

------------------------------------------------------------

1.语音识别-生成字幕

简介

涉及语音识别、视频字幕处理等多个领域。包括OpenAI的Whisper语音识别模型及其相关变体,还有基于大语言模型的视频字幕处理工具VideoCaptioner等,展示了语音技术在不同场景下的应用与发展。

核心功能

技术原理

应用场景

------------------------------------------------------------

2.AI-ETL

------------------------------------------------------------

0.MinerU

简介

MinerU是一个一站式、开源、高质量的数据提取工具,支持PDF、网页、多格式电子书提取。它具有多种功能,可处理多种文档格式,在不同平台上运行,并不断更新改进。

核心功能

技术原理

应用场景

------------------------------------------------------------

0.airbyte 数据集成平台

简介

Airbyte是一个数据集成平台,用于构建ETL/ELT数据管道,可将数据从各种来源传输到不同目的地,有开源和云托管两种模式,提供300多个连接器,还介绍了其入门指南、社区参与方式、贡献途径及安全相关信息。

核心功能

技术原理

利用自身开发的框架及相关技术,结合不同编程语言(如Python、Kotlin、Java等)编写连接器代码,实现对各种数据源和目的地的适配与数据传输逻辑。通过构建数据管道,依据配置对数据进行抽取、转换和加载操作。

应用场景

------------------------------------------------------------

0.omniparse

简介

OmniParse是一个将任何非结构化数据摄入并解析为结构化、可操作数据的平台,适用于GenAI(LLM)应用。它支持约20种文件类型,具有完全本地化、可轻松部署等特点。

核心功能

技术原理

通过深度学习模型,如Surya OCR系列模型、Florence-2、Whisper Small等,对不同类型的数据进行处理和解析。利用这些模型的能力来实现各种数据处理任务,如文档内容提取、多媒体信息转换等。

应用场景

------------------------------------------------------------

0.unstructured

简介

unstructured库提供用于摄取和预处理图像及文本文档的开源组件,围绕简化和优化LLMs数据处理工作流程,其模块化功能和连接器形成连贯系统,简化数据摄取和预处理。还介绍了安装方式、使用示例、文档及相关注意事项等内容。

核心功能

提供开源组件处理非结构化数据,包括图像和多种文本文档,可简化LLMs数据处理工作流程,具备模块化功能和连接器以适应不同平台并高效转化非结构化数据为结构化输出,提供多种使用方式如容器运行、安装库等。

技术原理

利用多种开源技术,如针对不同文档类型的处理依赖相应的工具包(如处理PDF需poppler-utils等),通过检测文件类型并路由到特定的文件分区函数来实现数据处理,如使用partition函数根据文件类型调用对应处理逻辑。

应用场景

适用于各种涉及非结构化数据处理的场景,如LLMs数据预处理、文档分析(包括PDF、HTML、Word等文档)、图像分析等领域的数据摄取与预处理工作。

------------------------------------------------------------

1.PDF-Extract-Kit

简介

PDF-Extract-Kit是用于从复杂多样的PDF文档中高效提取高质量内容的开源工具包,集成多种文档解析模型,具有模块化设计等特点,还提供了评估基准,介绍了模型、使用方法及待办事项等内容。

核心功能

能从PDF文档中进行布局检测、公式检测、公式识别、OCR、表格识别等,还可通过运行演示代码实现各模型的具体功能。

技术原理

集成了如DocLayout-YOLOft、YOLO-v10ft等多种先进模型用于不同任务,通过对多样文档注释数据进行微调,使其能在各种复杂文档类型上表现良好。

应用场景

适用于需要对PDF文档进行内容提取的场景,如开发者构建文档翻译、问答、辅助等应用,也可用于学术研究中对PDF文档内容的处理分析。

------------------------------------------------------------

1.marker

简介

Marker是一个能将文档快速准确地转换为markdown、JSON、块和HTML的工具,支持多种文件格式,可处理表格、公式等,还能进行图像提取、去除页眉页脚等操作,有多种输出格式和配置选项,在速度和准确性上有优势,且可通过API使用。

核心功能

技术原理

应用场景

------------------------------------------------------------

1.字节Dolphin

简介

Dolphin是一种通过异构锚点提示进行文档图像解析的模型,它采用分析然后解析的范式,先进行页面级布局分析,再进行元素级内容解析,在多个基准测试中取得了领先性能。

核心功能

技术原理

应用场景

------------------------------------------------------------

2.gptpdf

简介

核心功能

技术原理

应用场景

------------------------------------------------------------

2.open-parse

简介

Open Parse是一个用于文档解析的项目,旨在为LLM提供更好的文件解析功能。它能通过视觉识别文档布局并有效分块,与其他解析器不同,具有文本分割、支持Markdown、高精度表格支持等特点,还提供了示例代码和安装说明。

核心功能

技术原理

利用先进的视觉分析技术识别文档布局,通过文本分割、语义嵌入等方式对文档进行处理。使用pdfminer.six处理PDF,PyMuPDF进行表格检测等,还可借助深度学习模型如unitable进行表格解析。

应用场景

------------------------------------------------------------

2.zerox

简介

zeroX是一个用于OCR(光学字符识别)和文档提取的项目,它提供了一种简单的方法来将文档转换为AI可处理的格式。其核心功能是通过调用视觉模型,将各种格式的文件(如PDF、DOCX、图像等)转换为Markdown格式的文本。该项目具有跨平台、多模型支持的特点,在文档处理和AI数据准备方面具有重要应用价值。

核心功能

技术原理

应用场景

------------------------------------------------------------

3.多模态抽取

简介

GOT-OCR2.0是一个开源项目,旨在通过统一的端到端模型实现OCR 2.0。它提供了代码、权重和基准测试,并支持多种功能,如训练、微调、评估和演示。

核心功能

技术原理

该项目基于深度学习技术,使用统一的端到端模型来处理OCR任务。具体实现细节可能涉及到模型架构、损失函数、优化算法等方面的选择和调整。

应用场景

------------------------------------------------------------

OWL达摩院多模态信息抽取

简介

mPLUG-Owl系列和mPLUG-DocOwl是X-PLUG团队开发的两个强大的多模态大型语言模型系列。mPLUG-Owl旨在赋予大型语言模型多模态能力,尤其擅长处理长图像序列理解,是一个通用的多模态大模型家族。mPLUG-DocOwl则专注于文档理解领域,是一个模块化的多模态大型语言模型,特别强调无OCR的文档理解能力。

核心功能

技术原理

应用场景

------------------------------------------------------------

MonkeyOCR金山文档解析模型

简介

MonkeyOCR是一个文档解析项目,采用结构-识别-关系(SRR)三元组范式,简化了模块化方法的多工具管道,避免了使用大型多模态模型进行全页文档处理的低效率。该项目介绍了其方法、性能、使用方法等内容,还展示了在文档解析任务上的优势,如在中英文文档处理上优于其他模型,多页文档解析速度快等。

核心功能

技术原理

MonkeyOCR采用结构-识别-关系(SRR)三元组范式,通过简化多工具管道并避免使用大型多模态模型进行全页文档处理的低效率,实现高效的文档解析。该范式可能涉及对文档结构的分析、内容的识别以及各部分之间关系的预测,从而完成文档的解析任务。

应用场景

------------------------------------------------------------

chatIE信息抽取

简介

ChatIE是一个通过与ChatGPT聊天实现零样本信息抽取的开源工具,可自动从原始句子中提取结构化信息并进行深入分析,支持实体关系联合抽取、命名实体识别、事件抽取等功能。

核心功能

技术原理

将零样本IE任务转变为两阶段框架的多轮问答问题,借助ChatGPT的强大功能,通过特定的提示方式来实现信息抽取。

应用场景

------------------------------------------------------------

2.AI-PPT

------------------------------------------------------------

Slidev 开源AI PPT制作工具

简介

Slidev是一款为开发者打造的演示文稿工具,具有多种特性和丰富功能,提供了在线体验、项目初始化等方式,并配有中英双语等多种语言的文档。

核心功能

技术原理

应用场景

智谱Z.ai 生成PPT

简介

智谱Z.ai是综合性的AI工具平台,提供从内容创作到办公效率提升的各类AI服务,特别强调了AI在自动化演示文稿生成与总结方面的能力。AI技术正日益成为提升个人和企业工作效率、优化创作流程的关键驱动力。

核心功能

技术原理

应用场景

Snipaste<em>2025-07-24</em>20-09-24.png

Snipaste<em>2025-07-24</em>20-09-42.png

Z.ai 做的不是那种传统意义上的 PPT,它生成的是网页 Slides 。不是套个模板糊点字,而是用 HTML 把页面搭起来,再由模型去安排内容和结构。背后是 GLM-Experimental 系列模型的强力支撑,具备“表达+执行”双能力的底层引擎: * 输入:Agent前沿报告 * 效果:https://chat.z.ai/space/d0f5u67gd3k0-ppt

""" 提示词:电动汽车价格设定规律分析 - 市场营销团队商业汇报

目标: 创建一份15页以上的PPT文档,为市场营销团队提供关于公司新产品定价的参考。确保内容丰富、配图准确且风格匹配汽车领域,使整体呈现有力且观感良好。

核心部分:

开场引入(1-2页) - 简短介绍电动汽车市场现状及其重要性。 价格设定背景(2-3页) - 分析影响电动汽车价格的关键因素及当前市场的基本情况。 汽车价格分类(3-4页) - 依据不同标准(如品牌、车型、电池容量等)对电动汽车进行价格分类,并附上实例。 定价趋势(2-3页) - 探讨电动汽车定价的趋势,包括过去几年的变化和未来预测。 定价与受众心理匹配分析(2-3页) - 分析不同定价策略如何影响消费者的购买决策过程。 定价建议(2-3页) - 根据前面的分析,提出具体的定价建议以适应市场需求和竞争状况。 整体总结(1-2页) - 总结要点,强调关键信息并提供下一步行动指南。 注意:

确保所有数据和案例都是最新的,并真实可靠。 使用适合手机观看的图表和图片,保证清晰度的同时也要注重美观。 整个PPT应该具有连贯性和逻辑性,便于市场营销团队理解并应用于实际工作中。 """

flashdocs-AI 文稿

简介

FlashDocs 是一款利用人工智能技术,旨在自动化和简化Microsoft PowerPoint和Google Slides演示文稿创建过程的工具。它通过AI赋能,将耗时数小时的幻灯片制作流程缩短至数秒,帮助用户快速生成专业、定制化的演示内容,从而提高工作效率。

核心功能

技术原理

FlashDocs 的核心技术原理在于将传统演示文稿(如PowerPoint或Google Slides)转化为程序化的“FlashDocs文档”。此文档内含可动态填充的占位符(placeholders),这些占位符涵盖了文本、图像、图表等各类内容元素。当需要创建新的演示文稿时,系统通过其AI引擎,根据用户提供的指令(如prompt、每页指令、Markdown或键值对映射),自动识别并填充这些占位符,生成带有新鲜、相关内容的幻灯片。其API接口使得这一过程可被外部系统调用,实现演示文稿的自动化和批量生成,同时确保原始品牌风格和设计布局的完整性。

应用场景

flashdocs

LandPPT – 开源AI PPT生成工具

LandPPT是一个开源的AI演示文稿生成平台,旨在通过人工智能技术,将文档内容快速、高效地转换为专业且高质量的PPT演示文稿,极大地简化了传统PPT制作流程。

landppt.png

核心功能

技术原理

LandPPT的核心技术基于大语言模型(LLM)。它利用LLM的强大文本理解和生成能力,解析输入的文档内容,并将其结构化、提炼成演示文稿的关键信息。通过集成不同的AI模型(如OpenAI、Claude、Gemini),平台能够根据内容生成相应的演示文稿结构、文本内容、甚至推荐图片和排版,实现自动化和智能化的PPT制作。此外,可能还结合了自然语言处理(NLP)计算机视觉(CV)技术进行文档解析和图像优化。

应用场景

------------------------------------------------------------

2.AI爬虫

0.RSShub

简介

DIYgod的RSSHub,包含其文档说明,还有关于知乎热榜的具体内容。同时展示了cooderl的wewe - rss项目,这是一种更优雅的微信公众号订阅方式,支持多种功能及部署方式。

核心功能

技术原理

应用场景

------------------------------------------------------------

0.ScrapeGraphAI

简介

ScrapeGraphAI是一个基于Python的网络爬虫库,它利用大语言模型(LLM)和直接图逻辑,为网站和本地文档(如XML、HTML、JSON、Markdown等)创建爬虫管道,可根据用户提示提取信息。

核心功能

技术原理

利用LLM和直接图逻辑,通过配置不同的参数,如选择不同的LLM模型及其相关参数,结合特定的图结构来创建爬虫管道,以实现对网页或本地文档信息的提取。

应用场景

------------------------------------------------------------

1.Firecrawl

简介

Firecrawl是一款可将网站内容转换为LLM就绪格式数据的API服务,具有多种强大功能,支持多语言SDK,提供免费和付费计划,有开源和托管版本。

核心功能

技术原理

利用先进的网络爬虫技术,结合动态内容处理、代理管理、反bot机制等,实现高效稳定的数据抓取。通过与多种工具和框架集成,方便用户调用和定制。

应用场景

------------------------------------------------------------

1.## 1.fireplexity-AI爬虫+问答

简介

核心功能

技术原理

应用场景

易采集/EasySpider

简介

EasySpider(易采集)是一款可视化、无代码/低代码的网络爬虫及浏览器自动化测试软件。它旨在帮助用户无需编写代码,通过图形化界面即可设计和执行网页数据采集和浏览器自动化任务。该软件完全免费,支持个人及商业使用,并允许二次开发,其相关技术已被Web Conference (WWW) 2023接受并发表论文。

核心功能

技术原理

EasySpider的核心技术原理在于构建了一个无代码的可视化系统来实现网页抓取和浏览器自动化。它通过以下方式实现:

应用场景

2.chatexcel

简介

ChatExcel,可通过聊天AI处理Excel和数据分析,提供多种功能;向表答AI,能实现数据采集、分析及可视化等自动化处理。

核心功能

技术原理

应用场景

shortcut

简介

Shortcut 是一款超人级别的AI Excel代理工具,旨在通过人工智能技术提升用户在Microsoft Excel中的数据处理、分析和操作效率。

核心功能

技术原理

Shortcut 的核心技术原理可能基于大语言模型(LLM)机器学习(ML)算法。LLM用于理解用户的自然语言指令,将其转化为Excel可执行的操作或公式;机器学习技术则可能用于数据模式识别、预测分析和智能推荐。此外,它应通过API集成宏编程等方式与Microsoft Excel深度交互,实现对工作簿、工作表、单元格数据的读取、写入和操作。

应用场景

------------------------------------------------------------

2.chatpdf-doc

------------------------------------------------------------

ChatFiles

简介

ChatFiles是一个基于LangchainJS构建的项目,与Chatbot-ui相关。它允许用户上传文件并与之进行对话,具备与GPT-3.5聊天以及通过Supabase向量数据库与文件聊天的功能。

核心功能

技术原理

基于LangchainJS构建,利用Supabase向量数据库来处理与文件相关的交互,实现对上传文件的理解和基于文件内容的对话。

应用场景

------------------------------------------------------------

DocsGPT

简介

DocsGPT是一个开源的生成式人工智能工具,能帮助用户从任何知识源获取可靠答案,避免幻觉,具备多种强大功能特性及明确的路线图,还为公司提供生产支持,介绍了快速启动方式、贡献方式及项目架构等内容。

核心功能

技术原理

暂未提及明确技术原理相关内容。

应用场景

------------------------------------------------------------

图表生成

简介

核心功能

技术原理

应用场景

Kronos – 金融K线图基础模型

Kronos是由清华大学与微软亚洲研究院联合开源的首个面向金融市场的K线图基础模型。它专注于分析股票、加密货币等金融资产的K线数据,通过学习历史市场规律来预测未来价格走势。该模型旨在解决现有时间序列基础模型在金融K线数据应用中表现不佳的问题,并支持波动率预测和合成数据生成等关键任务。

pV4j3nJ.md.png

pV4jYA1.md.png

pV4j8B9.md.png

核心功能

技术原理

Kronos采用两阶段处理框架:

CWM – Meta代码世界模型

CWM(Code World Model)是由Meta(Facebook Research)开发并发布的一个320亿参数的开源大型语言模型(LLM),旨在推动结合世界模型的代码生成研究。它通过“代码世界建模”实现代理式编码,使得AI能够像人类工程师一样进行代码推理、调试、修补和扩展。

核心功能

CWM的核心功能包括:

技术原理

CWM作为320亿参数的LLM,其技术原理主要体现在其独特的训练阶段和“世界模型”概念:

Neovate Code – 蚂蚁AI编程

Neovate Code是一个开源的代码代理(Code Agent),旨在通过智能辅助提升开发者的编程效率和体验。该项目将代码库开放至GitHub,允许社区共同参与和改进,致力于成为一款强大的AI编程助手。

pVIJ8gI.png

核心功能

技术原理

Neovate Code的核心技术原理是基于大型语言模型(LLM)的能力,实现对代码的理解、生成与交互。它作为一个代码代理框架,通过以下方式运作:

应用场景

------------------------------------------------------------

⬆ 返回README目录 ⬆ Back to Contents