AI应用
AI应用模块汇聚了50+个细分领域的创新应用实践,构建了从AI编程到多媒体创作的完整应用生态体系。该模块系统性地展示了AI编程助手(Cursor、Codeium、GitHub Copilot、通义灵码、豆包MarsCode等10+主流平台)、AI音频TTS转换(ChatTTS、GPT-SoVITS、FunASR、SenseVoice等15+专业工具)、图像创作(Midjourney、即梦AI、快手Poify、阿里Pic Copilot等20+创意平台)、视频创作(可灵AI、腾讯智影、海螺视频、剪映等15+制作工具)等核心应用方向。
内容深入解析了AI-ETL数据处理(MinerU、PDF-Extract-Kit、字节Dolphin等智能解析工具)、AI-PPT制作(Slidev等自动化演示工具)、AI爬虫(Firecrawl、ScrapeGraphAI等智能采集框架)、ChatPDF文档问答(DocsGPT、ChatFiles等知识交互系统)等专业化应用场景的技术架构和实现方案。
模块还详细介绍了语音识别字幕生成、AI写作助手、智能办公自动化等实用工具的核心功能和使用技巧,以及开源项目的部署指南、API集成方法、性能优化策略等工程实践。此外,还提供了不同应用场景的技术选型建议、成本效益分析、用户体验优化等实用指导,以及最新技术趋势、行业应用案例、创新发展方向等前瞻性内容,帮助开发者快速构建高质量的AI应用产品,实现从创意到落地的完整开发流程。
目录
- 4.AI应用
- 1.AI 编程/0.Trae 字节跳动
- 1.AI 编程
- 1.AI 编程/2.Void-开源IDE-对标cursor
- 1.AI 编程/5.0Code
- 1.AI 编程/5.Cody
- 1.AI 编程/5.Devstral-开源AI代码模型
- 1.AI 编程/5.Seed-Coder
- 1.AI 编程/5.aider
- 1.AI 编程/5.cline
- 1.AI 编程/5.continue
- 1.AI写作
- 1.AI写作/91写作
- 1.AI音频TTS转换
- 1.AI音频TTS转换/1.ClearerVoice-Studio-魔塔-阿里
- 1.AI音频TTS转换/1.FunASR-魔塔
- 1.AI音频TTS转换/1.MinMax-Audio
- 1.AI音频TTS转换/1.字节MegeTTS
- 1.AI音频TTS转换/AudioGPT
- 1.AI音频TTS转换/ChatTTS
- 1.AI音频TTS转换/GPT-SoVITS
- 1.AI音频TTS转换/Mozilla TTS
- 1.AI音频TTS转换/SenseVoice-阿里
- 1.AI音频TTS转换/VITA-Audio
- 1.AI音频TTS转换/parler-tts
- 1.AI音频TTS转换/stable-audio-tools
- 1.图像创作
- 1.视频创作
- 1.视频创作/PreenCut-AI剪辑
- 1.视频创作/快手-LivePortrait表情姿态迁移
- 1.语音识别-生成字幕
- 2.AI-ETL/0.MinerU
- 2.AI-ETL/0.airbyte 数据集成平台
- 2.AI-ETL/0.omniparse
- 2.AI-ETL/0.unstructured
- 2.AI-ETL/1.PDF-Extract-Kit
- 2.AI-ETL/1.marker
- 2.AI-ETL/1.字节Dolphin
- 2.AI-ETL
- 2.AI-ETL/2.gptpdf
- 2.AI-ETL/2.open-parse
- 2.AI-ETL/2.zerox
- 2.AI-ETL/3.多模态抽取
- 2.AI-ETL/3.多模态抽取/OWL达摩院多模态信息抽取
- 2.AI-ETL/MonkeyOCR金山文档解析模型
- 2.AI-ETL/chatIE信息抽取
- 2.AI-PPT
- 2.AI-PPT/Slidev 开源AI PPT制作工具
- 2.AI爬虫/0.RSShub
- 2.AI爬虫/0.ScrapeGraphAI
- 2.AI爬虫/1.Firecrawl
- 2.chatexcel
- 2.chatpdf-doc
- 2.chatpdf-doc/ChatFiles
- 2.chatpdf-doc/DocsGPT
- 2.chatpdf-doc/图表生成
4.AI应用
------------------------------------------------------------
1.AI 编程
涵盖了WildCard、Cursor、Bolt.new等多个网站,涉及AI工具、代码辅助、开发平台等相关领域。- WildCard可订阅多种服务如ChatGPT Plus等,提供零门槛支付等功能。
- Cursor、Bolt.new等各自有其特定的功能,与AI开发、代码相关操作有关。
- WildCard | 一分钟注册,轻松订阅海外软件服务
- 0.Cursor - The AI Code Editor
- [0.Codeium[windsurf] · Free AI Code Completion & Chat](https://codeium.com/)
- 0.bolt.new
- 0.v0 by Vercel
- 1.Devin (the Developer)
- 1.GitHub Copilot · Your AI pair programmer
- 2.通义灵码
- 2.豆包 MarsCode - 编程助手
- 2.Baidu Comate · Coding mate, Pair you create
- 2.AI 编码助手 — Amazon Q 开发者版 — AWS
- 3.CodeGeeX - 智谱
- 3.codeFuse-蚂蚁
- 3.iFlyCode
- 4.天工智码SkyCode
- 4.小浣熊家族 Raccoon - AI 智能助手 - 商汤科技
- ClackyAI: Agentic AI CDE for 10x Faster Coding & PR Automation
- Observer AI - Open Source AI Agents
- Codebuff
- google-gemini/gemini-cli: An open-source AI agent that brings the power of Gemini directly into your terminal.
- CodeBuddy IDE-腾讯
------------------------------------------------------------
Qwen3-Coder-Flash – 阿里通义开源的高性能编程模型
2025年阿里通义千问团队推出高性能编程模型Qwen3-Coder-Flash(全称Qwen3-Coder-30B-A3B-Instruct),具备卓越能力且已开源。

主要功能
- 有卓越Agentic能力,擅长代理式编程等任务。
- 支持256K tokens长上下文理解,可扩展至1M tokens。
- 优化函数调用格式,支持多平台。
- 能高效生成代码,支持多语言。
- 可在本地硬件部署以构建专属代码助手。
技术原理
- 基于Causal Language Models架构,305亿参数,48层,用GQA机制。
- 分预训练和后训练阶段,兼顾通用与专业。
- 用YaRN技术处理长上下文。
应用场景
涵盖代码生成、自动化编程、项目开发维护、教育及企业级应用等。访问信息
可通过Qwen Chat平台访问,项目地址为https://huggingface.co/Qwen/Qwen3-Coder-30B-A3B-Instruct 。Seed Diffusion – 字节跳动推出的扩散语言模型 专注于代码生成任务
字节跳动Seed团队推出实验性扩散语言模型Seed Diffusion Preview,专注代码生成。其推理速度达2146 tokens/s,较同等规模自回归模型快5.4倍,在多代码基准测试中性能与自回归模型相当,代码编辑任务表现更优。
技术原理
- 两阶段扩散训练:掩码阶段用动态噪声调度替换部分代码tokens为[MASK],学习局部上下文补全;编辑阶段引入插入/删除操作构造噪声,修正所有tokens。
- 约束顺序扩散:蒸馏高质量生成轨迹,引导模型掌握代码依赖关系。
- 同策略学习:优化生成步数,用代理损失函数保证输出质量,实现并行解码。
- 块级并行扩散采样:维持块间因果顺序,用KV - caching复用信息,加速生成。
应用场景
涵盖代码自动生成、编辑与优化、教育与培训、软件开发协作、智能编程助手等。Seed Diffusion的项目地址 项目官网:https://seed.bytedance.com/zh/seed_diffusion 技术论文:https://lf3-static.bytednsdoc.com/obj/eden-cn/hyvsmeh7uhobf/sdiff_updated.pdf
0.Trae 字节跳动
简介
Trae是一款由字节跳动开发的AI原生集成开发环境(IDE)和LLM驱动的智能代理工具,旨在通过人工智能协助开发者提高软件工程效率。它深度融合了AI大模型能力,能够理解代码上下文,提供智能辅助编码、项目管理、问题排查等一站式开发体验,从而实现更快速的软件交付。

核心功能
- AI辅助编码: 支持中文自然语言指令,一键生成完整代码框架、代码片段,自动编写项目级和跨文件代码,并能进行代码解释、注释生成和错误修复。
- IDE基础功能: 提供代码编写、项目管理、扩展管理、版本控制等全面的集成开发环境功能。
- 开发上下文理解: 深入理解代码仓库、在线搜索结果和共享文档中的开发上下文,使AI辅助更精准。
- 智能任务执行: 作为LLM驱动的代理,能够根据开发者指令执行通用软件工程任务,如修复bug、添加单元测试、代码重构等。
- 实时预览与调试: 支持前端效果的实时预览以及自动记录详细执行轨迹用于调试和分析。
- AI行为定制: 允许用户定制规则,以精确调整AI的行为模式,使其符合特定工作流程需求。
技术原理
Trae的核心技术原理在于其AI原生架构和LLM(大型语言模型)驱动的智能代理能力。它深度集成了如Doubao-1.5-pro和DeepSeek等先进的AI大模型,通过这些模型对自然语言进行理解,并将其转化为代码生成、代码分析、bug修复等具体操作。- LLM驱动代理: 利用大语言模型的强大理解和生成能力,将用户的自然语言描述转化为可执行的软件工程任务,并驱动工具完成这些任务。
- 上下文感知系统: 通过分析IDE内的代码库、项目结构,并结合外部搜索结果和文档,构建全面的开发上下文,从而提高AI辅助的准确性和相关性。
- 自动化执行轨迹记录: 自动记录每次任务执行的详细过程,便于用户进行调试、分析和优化AI行为。
- 可配置AI行为: 引入配置机制,允许用户通过JSON文件等方式定制AI的运行参数和行为逻辑,实现个性化工作流。
应用场景
- 软件开发与编码: 开发者可以通过自然语言描述需求,让Trae自动生成代码框架、功能模块,提高编码效率。
- 代码审查与优化: 利用AI辅助理解代码、生成注释,并发现潜在的bug或性能瓶颈,辅助代码重构和优化。
- 项目快速启动: 快速生成项目基础结构和样板代码,加速新项目的初始化过程。
- 问题排查与调试: 智能诊断代码问题,提供修复建议,并记录执行轨迹以帮助开发者定位和解决bug。
- 单元测试生成: 自动化生成代码的单元测试,确保代码质量和功能正确性。
- 知识管理与学习: AI助理可以解释代码、文档内容,帮助开发者快速理解不熟悉的代码库或技术。
- Trae 官方GitHub仓库
- Trae 国内版文档站 - trae使用文档
- Trae - AI 原生 IDE
- Trae - Ship Faster with Trae-字节
- Trae - 官网new
------------------------------------------------------------
2.Void-开源IDE-对标cursor
简介
Void是一款开源的AI代码编辑器,是Cursor的替代方案。它基于VS Code开发,允许用户使用各种AI工具编写代码,可连接任意大语言模型,还能一键转移主题、快捷键和设置,让用户对数据拥有完全控制权。核心功能
- AI辅助编程:支持通过按“Tab”键进行自动补全,可对选中内容进行快速内联编辑,具备聊天功能,包含Agent模式、Gather模式和普通聊天。
- 多模型支持:能直接连接各种大语言模型,包括开源模型和前沿模型,无需通过私有后端传输消息。
- 实用功能特性:具有LLM更改检查点、lint错误检测、原生工具使用、快速应用等功能。
- 特定模式:Agent模式可对文件和文件夹进行搜索、创建、编辑、删除操作,还具备终端访问权限;Gather模式为受限版本,仅能读取和搜索。
技术原理
Void是VS Code仓库的一个分支,继承了VS Code的核心架构和功能基础。在AI功能方面,它通过直接对接各种大语言模型的API,实现AI辅助编程功能。在代码处理上,利用自身的编辑引擎结合模型的反馈,为用户提供代码补全、错误检测等功能。应用场景
- 软件开发:开发者在编写代码过程中,可利用其AI辅助功能提高编程效率,借助多模型支持选择最适合的模型完成代码任务。
- 代码学习:初学者可以通过使用其聊天和自动补全功能,学习代码编写规范和逻辑,还能利用Agent模式进行代码的搜索和修改练习。
- voideditor/void
- Void
------------------------------------------------------------
5.0Code
简介
OCode 是由 Ollama 模型驱动的终端原生 AI 编码助手,能提供深入的代码库智能分析和自主任务执行功能,可无缝集成到本地 Ollama 模型,为开发工作流提供企业级 AI 辅助。核心功能
- 代码相关:支持代码生成、修改、分析、审查、测试等,如多文件重构、TDD 脚手架搭建、代码优化、文档生成等。
- 项目理解:进行架构分析、依赖跟踪、跨文件推理。
- 开发自动化:涵盖 Git 工作流、测试执行、构建与 CI 集成。
- 数据处理:实现 JSON/YAML 解析和查询、数据验证、格式转换。
- 系统操作:包括进程监控、环境管理、网络连接测试。
- 交互操作:支持自然语言查询、上下文探索、调试辅助。
技术原理
OCode 基于 Ollama 模型,通过直接与本地或远程 Ollama 集成,流式获取补全内容。其采用 Model Context Protocol (MCP) 实现可扩展插件层,支持第三方集成。具备先进的对话解析和多动作检测功能,能根据查询类型智能选择工具,优化上下文。应用场景
- 开发场景:代码生成、分析、审查、测试、Git 集成等。
- 数据处理场景:JSON/YAML 处理、数据验证、数据查询。
- 系统运维场景:进程监控、网络连接测试、环境管理。
- 项目管理场景:架构审查、依赖分析、迁移规划。
- haasonsaas/ocode: OCode is a sophisticated terminal-native AI coding assistant that provides deep codebase intelligence and autonomous task execution
------------------------------------------------------------
5.Cody
简介
Cody 是一款开源的 AI 编码助手,支持 VS Code、JetBrains、Visual Studio 及网页端使用。它借助先进搜索从本地和远程代码库提取上下文,结合最新大语言模型(如 Claude Sonnet 4、GPT - 4o 等),帮助开发者更快地理解、编写和修复代码。核心功能
- 聊天:通过语义搜索从代码库检索文件,利用文件上下文回答关于代码库的问题,支持 @ 提及文件和添加远程仓库作为上下文。
- 自动补全:在开发者输入代码时提供单行和多行建议。
- 内联编辑:可在文件任意位置修复或重构代码。
- 预设提示:有常见操作的快速、可定制提示,如“为代码添加文档”“解释代码”等。
- 调试代码:能识别并修复代码中的错误,加速调试过程。
- 上下文过滤:可在聊天和自动补全结果中忽略选定仓库。
技术原理
Cody 运用 Sourcegraph 强大的高级搜索 API 从本地和远程代码库提取上下文信息,包括 API、符号和使用模式等。它结合最新的大语言模型(如 Claude Sonnet 4、GPT - 4o 等),利用这些上下文信息进行语义搜索,以理解代码库并为开发者提供准确的回答和代码建议。应用场景
- 代码理解:帮助开发者理解复杂代码库,通过提问获取相关解释。
- 代码编写:在编码过程中提供自动补全和代码生成建议,提高编码效率。
- 代码修复:识别并修复代码中的错误,加速调试流程。
- 团队协作:预设提示可用于自动化关键任务,方便团队成员共享和使用。
- sourcegraph/cody:少打字,多编码:Cody 是一个 AI 代码助手,它使用高级搜索和代码库上下文来帮助您编写和修复代码。 --- sourcegraph/cody: Type less, code more: Cody is an AI code assistant that uses advanced search and codebase context to help you write and fix code.
- Cody - Sourcegraph docs
------------------------------------------------------------
5.Devstral-开源AI代码模型
简介
Devstral是Mistral AI与All Hands AI合作推出的用于软件工程任务的大语言模型,在SWE - Bench Verified基准测试中大幅超越所有开源模型,以Apache 2.0许可发布,具有轻量级可本地部署、适用于企业隐私敏感代码库等特点。核心功能
- 解决实际GitHub问题,处理软件工程中的复杂问题。
- 实现代码代理功能,在代码代理框架上运行,与本地代码库交互解决问题。
- 可用于本地部署、企业隐私敏感代码库开发以及作为代码开发IDE、插件或环境的模型选择。
技术原理
Devstral基于特定的代码代理框架(如OpenHands、SWE - Agent)进行训练,这些框架定义了模型与测试用例的接口。模型通过学习解决实际GitHub问题来提升处理软件工程任务的能力。应用场景
- 本地部署与设备端使用,在单张RTX 4090或32GB RAM的Mac上运行,配合编码平台与本地代码库交互。
- 企业隐私敏感代码库的开发,满足严格的安全和合规要求。
- 作为代码开发IDE、插件或环境的模型选择,辅助开发工作。
- mistralai/Devstral-Small-2505 · Hugging Face
- Devstral | Mistral AI
------------------------------------------------------------
5.Seed-Coder
简介
Seed - Coder(原Doubao - Coder)是一系列轻量级且强大的开源代码大语言模型,包含8B大小的基础、指令和推理模型。它能让大语言模型自行整理代码训练数据,大幅提升编码能力,在多种编码任务中表现出色,是迈向开源大语言模型生态系统的重要一步。核心功能
- 代码数据筛选:主要利用大语言模型而非手工规则进行代码数据筛选,减少预训练数据构建中的人工工作量。
- 多任务处理:可处理代码生成、代码补全、代码编辑、代码推理和软件工程等多种编码任务。
- 多模型支持:提供Seed - Coder - 8B - Base、Seed - Coder - 8B - Instruct、Seed - Coder - 8B - Reasoning等多种模型,满足不同需求。
技术原理
基于大语言模型技术,通过模型自行整理代码训练数据,减少人工干预。采用指令调优使模型与用户意图对齐,使用强化学习提升推理能力,支持多GPU分布式服务以提高服务吞吐量。应用场景
- 代码开发:辅助开发者进行代码生成、补全、编辑等工作。
- 代码推理:用于解决代码中的逻辑推理问题。
- 软件工程:在软件工程的各个环节提供支持。
- ByteDance-Seed/Seed-Coder: Seed-Coder is a family of lightweight open-source code LLMs comprising base, instruct and reasoning models, developed by ByteDance Seed.
------------------------------------------------------------
5.aider
简介
Aider是一款可在终端实现AI结对编程的工具,能与多种大语言模型(LLM)协作,编辑本地git仓库中的代码。它支持多种安装方式,适用于多种流行编程语言,在SWE Bench等基准测试中表现出色。核心功能
- 代码编辑:可根据用户需求对指定文件进行编辑,如添加新功能、修复bug、重构代码等。
- 自动提交:自动对代码更改进行git提交,并生成合理的提交信息。
- 多模型支持:能连接几乎任何LLM,尤其与Claude 3.5 Sonnet、DeepSeek V3、o1和GPT - 4o配合效果最佳。
- 多文件编辑:可同时编辑多个文件以处理复杂请求。
- 多交互方式:支持添加图片、URL到聊天,还能通过语音进行代码交互。
应用场景
- 代码开发:在新项目开发或现有代码库维护中,协助开发者完成代码编写、功能添加、测试用例编写等工作。
- 代码修复:根据错误信息、GitHub问题链接等修复代码中的bug。
- 代码重构:对现有代码进行重构,提高代码质量和可维护性。
- 文档更新:更新代码文档,确保文档与代码保持一致。
- Installation | aider
- Usage | aider
- Aider blog | aider
- Aider-AI/aider:aider 是你终端中的 AI 结对编程 --- Aider-AI/aider: aider is AI pair programming in your terminal
------------------------------------------------------------
5.cline
简介
Cline是一款能使用CLI和编辑器的AI助手,借助Claude 3.7 Sonnet的代理编码能力,可处理复杂软件开发任务。它支持多种API和模型,通过提供安全的人机交互GUI,在经用户许可后执行文件更改和终端命令,还能利用模型上下文协议扩展自身能力。核心功能
- 文件处理:创建和编辑文件,监控并修复文件中的错误。
- 终端操作:在终端执行命令,监控命令输出并应对开发服务器问题。
- 网页开发辅助:在无头浏览器中进行网页操作,捕获截图和日志,修复运行时和视觉错误。
- 工具扩展:使用模型上下文协议创建和安装自定义工具。
- 上下文管理:通过特定指令添加文件、文件夹、URL等信息。
- 检查点功能:在任务执行中对工作区进行快照,支持对比和恢复。
技术原理
Cline基于Claude 3.7 Sonnet的代理编码能力,利用模型上下文协议(MCP)扩展功能。它通过分析文件结构和源代码抽象语法树(AST)、运行正则搜索、读取相关文件来获取项目信息,在处理信息时会谨慎管理上下文,避免超出上下文窗口限制。应用场景
- 软件开发:协助进行代码编写、调试、修复漏洞等工作。
- 网页开发:处理网页运行时错误和视觉错误。
- 项目管理:利用自定义工具管理项目资源,如Jira票务、AWS EC2实例等。
- 测试工作:执行端到端测试,验证应用程序功能。
- cline/cline: Autonomous coding agent right in your IDE, capable of creating/editing files, executing commands, using the browser, and more with your permission every step of the way.
------------------------------------------------------------
5.continue
简介
Continue 是一个开源的 AI 代码助手,旨在帮助开发者创建、共享和使用自定义的 AI 代码助手。它提供 IDE 扩展,并作为一个模型、规则、提示、文档及其他构建块的中心,让开发者能够完全控制和定制他们的 AI 辅助开发体验。核心功能
- 自定义 AI 代码助手: 允许用户连接各种模型和上下文,创建高度定制化的 AI 助手。
- 代码自动补全: 提供内联的代码建议,提升编码效率。
- 代码对话: 在侧边栏中进行代码理解和迭代的交互式聊天。
- 代码编辑: 无需离开当前文件即可修改代码。
- 代理能力: 具备代理功能,能够执行更复杂的代码操作。
- IDE 集成: 提供 VS Code 和 JetBrains 等主流 IDE 的扩展。
技术原理
Continue 的核心技术原理在于其开放性和可扩展性。它作为一个开源平台,允许开发者集成不同的 AI 模型,并利用自定义的规则、提示和文档来训练和引导 AI 助手的行为。通过其提供的 IDE 扩展,Continue 能够深度集成到开发环境中,实时获取代码上下文,并利用连接的 AI 模型进行代码分析、建议生成、自动补全以及基于自然语言的交互。其模块化的设计使得用户可以根据特定需求配置不同的 AI 能力,实现高度定制化的开发工作流。应用场景
- 软件开发: 开发者可以利用 Continue 加速日常编码,获取智能代码建议和自动补全。
- 代码理解与重构: 通过聊天功能,帮助开发者理解复杂代码逻辑,并辅助进行代码迭代和重构。
- 定制化开发环境: 企业或团队可以基于 Continue 构建符合自身规范和业务需求的私有 AI 代码助手。
- 教育与学习: 作为学习工具,帮助编程初学者理解代码,并获得实时编程辅助。
- 开源贡献: 开发者可以为 Continue 生态系统贡献新的模型、规则或构建块,共同丰富平台功能。
- continuedev/continue:⏩ 使用我们的开源 IDE 扩展和模型、规则、提示、文档和其他构建块的中心来创建、共享和使用自定义 AI 代码助手 --- continuedev/continue: ⏩ Create, share, and use custom AI code assistants with our open-source IDE extensions and hub of models, rules, prompts, docs, and other building blocks
办公小浣熊-商汤
简介
网页主要介绍了小浣熊家族的两款工具,代码小浣熊可用于编程相关操作,办公小浣熊则专注于数据分析和处理。通过使用办公小浣熊对 10000 条应届生就业数据进行分析,解答了关于就业的疑问,并为表妹制定了求职规划,同时还能将分析内容整理成文档。核心功能
- 代码小浣熊:支持 Python、Go、Javascript 等语言,可进行写代码、编注释、做重构、修 bug 等操作。
- 办公小浣熊:
应用场景
- 编程领域:代码小浣熊可帮助程序员快速编写和修改代码。
- 数据分析领域:办公小浣熊可用于分析各种类型的数据,如就业数据、市场数据等。
- 求职规划:为应届生提供就业分析和可落地的求职路径规划。
- 文档整理:将分析内容整理成结构清晰的文档。
gen-cli
简介
Gen CLI是基于开源Gemini - CLI,依托硅基流动SiliconCloud平台API开发的命令行AI编程工具,为国内开发者提供类似Gemini - CLI的高效编程能力,可连接工具、理解代码并加速工作流。核心功能
- 代码库操作:查找代码库中与Prompt相关内容,分析代码仓库功能和结构。
- 自动化开发:创建测试文件,实现持续修改 - 运行 - Debug循环。
- 任务处理:一键创建应用,处理日常任务如分析发票金额组合。
- 交互扩展:提供交互式命令行界面,支持多命令参数,扩展性良好。
- 跨语境操作:能在Gemini 1M token上下文窗口内外查询和编辑大代码库。
- 多模态生成:利用Gemini多模态能力从PDF或草图生成新应用。
- 任务自动化:自动化操作任务,如查询拉取请求、处理复杂变基。
- 工具连接:连接工具和MCP服务器,新增媒体生成等能力。
- 搜索辅助:借助内置Google Search工具优化查询。
技术原理
基于Gemini - CLI架构,保留其命令行解析、Prompt处理、文件操作等基本架构和功能逻辑;通过硅基流动SiliconCloud平台的API调用DeepSeek模型,利用其语言理解和生成能力执行用户命令和Prompt。应用场景
- 开发者编程:自动生成代码和测试文件,简化开发流程。
- 项目分析:快速掌握代码库结构和功能细节。
- 日常任务:自动化创建应用、处理文件任务,减少重复工作。
- 文件处理:从多种文件格式提取数据,支持批量处理。
- 交互式任务:通过命令行输入描述生成代码或执行任务,支持自定义扩展。
Shadow – 开源的AI编程Agent
Shadow 是一个开源的AI编程Agent,旨在帮助开发者理解、推理并贡献现有代码库。它提供了一套全面的工具集,能够集成GitHub仓库,自动化生成拉取请求,管理代码分支,并提供实时的任务状态更新。该项目通过提供高级的代码操作和搜索能力,提升开发效率和协作体验。
核心功能
- 文件操作与管理: 支持文件的读取、编辑、替换、删除和目录探索,能够对代码文件进行细粒度的控制和修改。
- 代码智能搜索: 提供基于正则表达式的模式匹配(grepsearch)、模糊文件名搜索(filesearch)以及AI驱动的语义代码搜索(semantic_search)。
- GitHub集成与自动化: 能够与GitHub仓库无缝集成,自动生成Pull Request并管理分支,简化开发工作流。
- 实时任务状态更新: 提供任务的实时状态反馈,帮助开发者随时掌握项目进展。
- 代理工具: 为AI Agent提供一套全面的工具,使其能够执行复杂的编程任务。
技术原理
Shadow 的核心技术原理是利用人工智能代理(AI Agent)能力来理解和操作代码库。它结合了:- 自然语言处理(NLP): 理解开发者意图和代码语义,进行智能化的代码分析和搜索。
- 代码分析与操作引擎: 通过
readfile、editfile、search_replace等工具实现对代码文件的精确读写和修改。 - 语义搜索技术: 运用先进的AI模型进行代码的语义理解,实现比传统关键词搜索更深层次的代码查找。
- 版本控制系统(VCS)集成: 利用GitHub API等接口,实现与Git仓库的交互,包括分支管理、Pull Request的创建与更新。
- 任务状态管理: 通过后端服务和前端界面,实现任务执行状态的实时监控和反馈机制。
- 项目官网:https://www.shadowrealm.ai/
- GitHub仓库:https://github.com/ishaan1013/shadow
------------------------------------------------------------
1.AI写作
AI写作平台:适用于需要本地化、注重隐私、且希望获得从创意到文本优化全流程辅助的个人创作者、作家、学生及专业人士。内容创作者,如小说作者、自媒体运营者、学生、职场人士等,用于快速生成各类文章、文学作品、营销文案及报告等,提升创作效率。


- MindBricks-AI智能写作
- 星月写作
- The AI workspace that works for you. | Notion
- Verse - 新一代生产力工具
- 秘塔写作猫
- DeepL Write:人工智能驱动的写作助手
- Grammarly: Free AI Writing Assistance
- 话袋AI笔记|您的智能外挂大脑
- LilysAI: AI摘要Youtube, PDF, WebPage, Audio 어떤 자료든 완벽하게 요약 - Lilys AI
- OiaWrite - 网文小说在线智能辅助写作 - 墨星写作网
- 白梦写作-免费AI小说写作助手
- AI公众号创作
- Sudowrite – AI写作工具
------------------------------------------------------------
91写作
简介
91写作是基于 Vue 3 + Element Plus 的专业 AI 小说创作平台,集成多种先进 AI 模型,提供从构思到成文的完整创作工具链,涵盖智能创作、世界观构建、作品管理等功能,支持多类型小说创作,让每个人都能轻松创作精彩小说。核心功能
- 智能创作引擎:支持主流 AI 模型,具备上下文感知续写、多模型切换和多样化创作算法。
- 完整创作工具链:全流程支持创作,有专业编辑器、智能大纲生成、章节管理和实时写作统计。
- 世界观构建:模板化管理复杂世界观,AI 辅助设定生成和一致性检查。
- 作品管理:安全存储作品,有导入导出、数据统计和备份恢复功能。
- 智能提示词库:提供分类模板,支持定制和统计,提升创作效率。
- 写作目标:可设定目标并实时跟踪进度,有成就激励系统。
技术原理
前端采用 Vue 3.3.8 框架、Element Plus 2.4.2 组件库、Vue Router 4.2.5 路由管理和 Pinia 2.1.7 状态管理。借助 Vite 4.5.0 构建工具、TypeScript 开发,用 ESLint + Prettier 保证代码质量。集成 OpenAI GPT 系列、Anthropic Claude、Google Gemini 等 AI 服务,通过专业编辑器和解析器实现文本处理。应用场景
- 长篇小说创作:选类型模板、AI 生成大纲、章节式创作、智能续写润色和状态管理发布。
- 短篇快速创作:设定目标、用提示词、AI 续写、内容润色和一键导出。
- AI 辅助创作:编写开头、设定续写方向、流式续写、选择性润色和完善成文。
- 内容优化提升:选段落、选润色类型、流式润色、对比效果和应用优化。
- 复杂世界观构建:用模板、填设定、AI 完善细节和一致性检查。
- 目标导向创作:制定计划、设定目标、跟踪进度和成就激励。
- 91写作 - AI智能小说创作平台
- ponysb/91Writing: 一个基于 Vue 3 + Element Plus 的智能Ai小说创作工具,集成多种 AI 模型,助力作者高效创作
文兜智写 – AI标书编写平台
简介
文兜智写是专注于招投标领域的AI标书编写平台,旨在解决投标人痛点。其依托海量行业资料(100万+行业资料,同步32省694地市政策)和行业级模型,支持快速生成符合要求的标书内容(10分钟完成10万字投标方案),已服务超百万用户,具备企业云部署和私有化定制能力,拥有良好用户口碑及行业合作基础。核心功能
- 智能解析招标文件:快速识别项目需求、技术规格、商务条款等关键信息,构建编标框架。
- 快速生成标书:自动生成技术方案、实施方案、商务响应等内容,10分钟可完成10万字投标方案。
- 多模式编写:支持按招标要求、评估标准或目录编写,满足不同用户需求。
- 高效查重:10万字内容查重率低至5%,确保独特性与合规性。
技术原理
基于海量行业语料库(100万+行业资料)及行业级AI模型,结合实时同步的32省694地市政策数据,通过5代算法迭代与100+小版本优化,实现招标文件的精准解析与标书内容的智能生成,同时遵循《投标文件编制规范》团体标准(T/CASME 613-2023)。应用场景
- 投标企业:快速响应市场需求,降低人力成本,提升中标率。
- 投标代写企业:解决时间紧、员工管理难、擅长领域有限等问题。
- 个人投标人:减轻工作负担,避免加班,提高标书编制效率。
- https://www.cgwenjian.com/v/ai
笔墨写作 – AI写作创作平台
“笔墨写作”是一款专注于文字创作的AIGC(人工智能生成内容)平台。它基于海量高质量中文数据训练,旨在通过AI技术显著提升用户的写作效率和文章质量,支持多种文体创作。
核心功能
- 智能文本生成: 支持公文、论文、教案等10余种文体的AI一键生成高质量文章。
- 写作辅助: 提供语法纠错、自动排版、文本润色、内容校对等功能。
- 资源集成: 内置资料库和格式模板,为用户提供写作参考和结构支持。
- 个性化服务: 针对不同行业和用户需求提供定制化的写作解决方案。
技术原理
“笔墨写作”主要依赖于大型语言模型(LLM)和深度学习技术。通过对海量中文语料进行训练,模型能够理解复杂的语义、语境和文体特征。其核心技术包括自然语言处理(NLP),用于文本理解、生成、纠错和风格迁移,以及生成对抗网络(GANs)或变分自编码器(VAEs)等AIGC模型架构,以实现高质量、多样化的内容创作。平台通过持续学习和优化,提升其生成内容的逻辑性、准确性和流畅性。应用场景
- 政府及企事业单位: 用于生成各类公文、述职报告、工作总结、通知等。
- 教育领域: 辅助教师撰写教案、科研人员撰写论文,或学生进行学术写作。
- 职场办公: 提升各类商业文档、报告、营销文案的撰写效率。
- 个人创作: 支持小说、散文等文学作品的构思和初稿生成。
官网:https://www.bimoxiezuo.com/home
刺鸟创客 – AI内容创作平台
刺鸟创客则是一款专业高效的AI内容创作平台,致力于为用户提供智能化写作和内容处理服务。核心功能
刺鸟创客 (CiniaoAI):- AI写作: 支持新闻、小说、论文、营销策划、短视频脚本等多种内容的智能生成。
- AI翻译与校对: 提供文本翻译、校对、润色、改写等功能。
- 文案提取与续写: 协助用户快速获取灵感创意,进行文章续写和文案提取。
技术原理
刺鸟创客 (CiniaoAI):- 自然语言处理 (NLP): 运用深度学习模型理解、生成和处理人类语言。
- 生成对抗网络 (GAN) / 转换器 (Transformer) 模型: 用于高质量文本内容的生成、续写和风格转换。
- 智能语义理解: 能够分析用户输入意图,根据上下文生成相关且连贯的内容。
- 知识图谱: 构建专业领域知识库,提升内容生成的准确性和专业性。
应用场景
刺鸟创客 (CiniaoAI):- 内容创作与营销: 辅助作家、编辑、市场营销人员快速生成各类文案、文章和创意内容。
- 学术研究与教育: 帮助学生和研究人员进行论文写作、文献综述和文本校对。
- 新闻媒体: 快速生成新闻稿、报道草稿,提高内容生产效率。
- 企业文案与公关: 用于企业宣传、产品介绍、新闻发布等各类文本需求。
官网:https://www.ciniaoai.com/
宣宝 – AI写作
简介
宣宝App (xuanbaoapp.com):这是一个专为教育培训机构设计的综合性管理系统。它旨在通过一个应用程序解决机构运营中的多个核心场景,提高管理效率和招生转化率。核心功能
- 教培机构管理:涵盖招生、财务、教务、家校沟通、数据分析、多校区管理、保险、赛事考级等8大经营场景。
- 招生方案优化:提供低成本、高效率的招生解决方案,并精准帮助机构进行学员转化。
- 线上线下融合:支持线上线下多种教学和管理模式。
技术原理
- SaaS平台架构:推测采用云服务(SaaS)模式,为教培机构提供软件即服务,实现多终端访问和数据同步。
- 数据管理与分析:集成数据管理和分析模块,可能涉及数据库技术、BI(商业智能)工具,用于财务统计、教务排课、学员档案管理及经营数据洞察。
- CRM/ERP集成:系统内部可能融合了客户关系管理(CRM)和企业资源规划(ERP)的部分功能,优化机构的运营流程。
应用场景
- 各类教育培训机构:包括学科辅导、艺术培训、职业技能培训、素质教育等领域的机构。
- 多校区连锁机构:适用于拥有多个校区的教育集团进行统一管理和数据汇总。
- 线上教育平台:支持线上课程管理、学员互动和教学服务。
官网: https://xuanbaoapp.com/
Copy2AI – AI创作
简介
Copy.ai 是一款领先的AI内容创作平台,旨在帮助个人和企业提升工作与创作效率。它整合了AI驱动的多种功能,包括智能剪贴板、内容创作助手和智能聊天助手,能够自动化内容营销流程、激发创作灵感,并支持多语言内容生成和优化,尤其适用于市场营销和销售团队。核心功能
- 智能内容生成与优化: 利用AI技术,快速生成博客文章、广告文案、产品描述、社交媒体内容等多种形式的文本,并提供翻译、润色、改写等功能。
- 创意激发与辅助: 提供丰富的模板和工具,帮助用户克服写作障碍,激发创意,并能根据用户需求生成个性化内容。
- 智能对话与分析: 支持自然语言交互,作为智能聊天助手进行对话,并具备文件分析能力。
- 营销自动化与集成: 作为GTM (Go-to-Market) AI平台,通过预构建的、可定制的工作流自动化营销内容生成,并支持开放API与现有系统无缝集成,统一营销与销售操作。
技术原理
Copy.ai 的核心技术基于先进的大型语言模型 (LLMs),如OpenAI的GPT-3/GPT-4等,通过深度学习和自然语言处理 (NLP) 技术实现内容的理解、生成与优化。平台利用机器学习算法分析用户输入和上下文,生成符合语境、具有创造性和连贯性的文本。其GTM AI平台架构支持预设工作流和API接口,确保高效集成和数据流通。应用场景
- 市场营销: 快速生成广告文案、电子邮件营销内容、社交媒体帖子、网站内容等,提升市场推广效率。
- 销售: 辅助销售团队创建个性化的销售邮件、产品介绍和提案,加速销售流程。
- 内容创作: 帮助博主、作家和内容创作者快速产出高质量文章、故事或创意文案,克服写作瓶颈。
- 多语言沟通: 进行内容翻译和润色,支持跨文化交流与内容本地化。
- 企业效率: 自动化日常文案工作,提升团队整体工作效率和内容生产力。
官网: https://copy2ai.com/
------------------------------------------------------------
1.AI音频TTS转换
简介
开源音频基础模型Kimi - Audio,以及Fish Audio计费、Bibigpt、Unmute.sh、Vocloner、Elevenlabs等相关音频技术或服务。核心功能
- Kimi - Audio可进行音频理解、生成及对话,在多类音频任务中表现出色。
- 其他相关平台或服务可能具备音频处理、语音交互、音频生成等功能。
技术原理
- Kimi - Audio:采用混合音频输入(连续声学向量 + 离散语义令牌),通过音频分词器、音频语言模型、音频去分词器处理音频,基于Transformer架构,预训练于大量音频和文本数据。
- 其他相关技术原理文档未详细提及。
应用场景
- 语音助手开发
- 音频内容创作
- 智能客服
- 多媒体娱乐(如有声读物、语音游戏)
- TTS:Fish Audio: API
- MoonshotAI/Kimi-Audio
- BibiGPT | AI 动态视频总结与语音克隆
- Unmute by Kyutai低延时语音转文字
- OpenAudio - Introducing S1
- Vocloner: 语音克隆Free Instant AI Voice Cloning
- Free Text to Speech & AI Voice Generator | ElevenLabs
------------------------------------------------------------
1.ClearerVoice-Studio-魔塔-阿里
简介
ClearerVoice - Studio 是人工智能语音处理工具包,含语音增强、分离等功能及预训练模型;KAN - TTS 是语音合成训练框架,支持多语言文本转语音模型训练;ModelScope 平台展示了众多文本转语音模型,涵盖多种语言和不同技术架构。核心功能
- ClearerVoice - Studio:语音降噪、分离、目标说话人提取,提供预训练模型,支持模型微调与训练,具备语音质量评估功能。
- KAN - TTS:从零开始训练文本转语音模型,支持多种语言。
- ModelScope 文本转语音模型:将文本转换为语音,支持多语言,部分模型可进行推理演示。
技术原理
- ClearerVoice - Studio:采用 FRCRN、MossFormer 等预训练模型,基于大量数据集训练,结合先进算法处理语音任务。
- KAN - TTS:暂时支持 sam - bert 和 hifi - GAN 模型,通过训练脚本对模型进行训练和优化。
- ModelScope 文本转语音模型:运用 ONNX、PyTorch、Safetensors 等技术框架,不同模型采用如 dual_ar、Transformers 等架构。
应用场景
- 语音通信:ClearerVoice - Studio 可提升语音通话质量,去除背景噪音。
- 有声读物:KAN - TTS 和 ModelScope 文本转语音模型可将文字内容转换为语音,制作有声读物。
- 智能客服:文本转语音模型可使智能客服以语音形式与用户交流。
- modelscope/ClearerVoice-Studio: An AI-Powered Speech Processing Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Enhancement, Separation, and Target Speaker Extraction, etc.
- modelscope/KAN-TTS:KAN-TTS 是一个语音合成训练框架,请尝试我们在 https://modelscope.cn/models?page=1&tasks=text-to-speech 上发布的演示 --- modelscope/KAN-TTS: KAN-TTS is a speech-synthesis training framework, please try the demos we have posted at https://modelscope.cn/models?page=1&tasks=text-to-speech
------------------------------------------------------------
1.FunASR-魔塔
简介
FunASR是一个基础语音识别工具包,旨在搭建语音识别学术研究与工业应用间的桥梁。它支持训练和微调工业级语音识别模型,提供语音识别、语音活动检测等多种功能,还开源大量预训练模型,方便研究者和开发者开展相关工作。核心功能
- 语音处理:包括语音识别(ASR)、语音活动检测(VAD)、标点恢复、语言模型应用、说话人验证、说话人分割和多说话人语音识别。
- 模型支持:支持预训练模型的推理和微调,提供大量学术和工业预训练模型。
- 服务部署:支持多种服务部署,如文件转录服务(中文、英文,CPU和GPU版本)、实时转录服务(中文CPU版)。
技术原理
FunASR涉及多种语音处理技术,如非自回归端到端语音识别模型Paraformer-large,利用模型结构优势实现高精度、高效率和便捷部署;SenseVoice等模型具备多语音理解能力,通过在大量工业数据上训练学习语音特征。同时,借助动态批处理、多线程并发等技术优化性能。应用场景
- 语音识别服务:快速构建语音识别服务,如会议转录、音频内容转写等。
- 语音交互系统:用于智能音箱、语音助手等设备,实现语音指令识别和交互。
- 语言学习:辅助语言学习者进行语音训练和评估。
- modelscope/FunASR: A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.
------------------------------------------------------------
1.MinMax-Audio
简介
MiniMax Audio是一个先进的AI音频生成平台,专注于提供高质量的文本转语音(Text-to-Speech, TTS)和声音克隆解决方案。它旨在将文本转化为逼真、富有表现力的语音,并支持多语言和多种音色选择,为内容创作者、企业和开发者提供强大的音频内容生成能力。核心功能
- 文本转语音 (TTS):将文字内容即时转换为自然、逼真的人类语音,提供300多种声音选择,覆盖32种语言。
- 声音克隆:能够高保真地复制现有声音,生成个性化的语音模型。
- 情感表达控制:支持语音中融入情感,使输出更具表现力和感染力。
- 多语言支持:支持多种语言的语音合成,满足全球化内容创作需求。
- 高保真音频输出:优化语音输出质量,适用于专业级应用场景,如配音和有声读物。
- 噪音消除:集成噪音抑制技术,提高音频清晰度。
- 音乐生成:部分功能提及可生成原创高质量音乐。
技术原理
MiniMax Audio基于先进的人工智能技术,特别是深度学习模型,实现文本到音频的转换。其核心技术可能包括:- Text-to-Audio (T2A) 模型:将文本信息转化为声学特征和波形数据。
- 语音合成技术:利用神经网络(如循环神经网络或Transformer)学习人类语音的复杂模式,生成自然流畅的语音。
- 声学建模:通过大量的语音数据训练模型,使其能够精确模拟人类发音的音高、语速、音色和情感。
- 声音克隆算法:通过少量目标语音样本,提取关键声学特征,并利用迁移学习等技术合成出高度相似的新语音。
- 情感识别与合成:分析文本情感,并将其映射到语音的韵律、音调和语速上,以实现情感表达。
应用场景
- 内容创作:用于有声读物、播客、视频旁白、动漫配音、教育课程和多媒体内容的语音生成。
- 企业服务:应用于客户服务(如IVR语音导航)、营销宣传、产品介绍、企业培训材料的语音化。
- 智能助理与对话系统:为虚拟助手、智能客服和人机交互界面提供自然语音输出。
- 无障碍辅助:将文本内容转换为语音,帮助视障人士获取信息。
- 游戏与娱乐:为游戏角色配音,生成游戏内音效或旁白。
- 开发者集成:通过API接口将MiniMax Audio功能集成到各类应用程序和平台中。
- MiniMax Audio: Create lifelike speech
------------------------------------------------------------
1.字节MegeTTS
简介
MegaTTS3 是由字节跳动与浙江大学合作推出的零样本文本到语音(TTS)合成系统。它是一款轻量、高效且开源的工具,旨在提供高质量的语音生成能力,尤其擅长语音克隆和多语言(中文、英文及中英混合)语音合成。核心功能
- 零样本语音合成: 无需特定目标语音数据即可生成高质量语音。
- 多语言支持: 支持中文、英文以及中英混合语音的合成。
- 超高音质语音克隆: 仅需几秒钟的音频样本即可模仿目标声音,实现高保真语音复刻。
- 高效性能: 采用轻量级模型设计,参数量仅0.45B,实现高效的语音生成。
技术原理
MegaTTS3 采用先进的轻量级扩散模型作为核心生成架构。其关键技术包括:- 稀疏对齐增强的潜在扩散变压器(Sparse Alignment Enhanced Latent Diffusion Transformer): 用于零样本语音合成,能够有效处理语音的对齐问题。
- WavVAE 架构: 主要基于 Wavtokenizer,这是一种高效的声学离散编解码器,用于音频语言建模。
- 语音属性解耦建模: 系统将语音分解为内容(content)、音色(timbre)和韵律(prosody)等独立属性进行建模,从而实现对语音生成更精细的控制和组合,提升合成质量和灵活性。
应用场景
- 个性化语音助手与客服系统: 创建具有独特音色或模仿用户声音的智能语音交互体验。
- 有声读物与播客制作: 批量生成高质量、多语种的有声内容。
- 虚拟形象与元宇宙: 为虚拟角色赋予逼真且可定制的语音。
- 影视配音与本地化: 快速实现多语种的配音,并保持音色一致性。
- 辅助无障碍交流: 为有发声障碍的人士提供个性化的合成语音。
- 字节跳动/MegaTTS3 --- bytedance/MegaTTS3
------------------------------------------------------------
AudioGPT
简介
AudioGPT项目开源了实现代码和预训练模型,具备理解和生成语音、音乐、声音及会说话头像的能力,支持多种音频处理任务,部分任务还在开发完善中。核心功能
- 语音处理:包括文本转语音、风格迁移、语音识别、增强、分离、翻译、单声道转立体声等。
- 歌唱合成:支持文本转歌唱。
- 音频生成与处理:可实现文本转音频、音频修复、图像转音频、声音检测、目标声音检测和声音提取等。
- 会说话头像合成:进行会说话头像的合成。
技术原理
项目基于多种基础模型实现不同功能,如在语音处理上使用FastSpeech、SyntaSpeech等;歌唱合成采用DiffSinger、VISinger;音频生成与处理依靠Make - An - Audio等,通过这些模型的能力来完成相应任务。应用场景
- 语音交互系统,如智能语音助手。
- 音乐创作与制作领域。
- 视频制作,包括添加语音、会说话头像等。
- 安防监控中的声音检测与识别。
- AIGC-Audio/AudioGPT: AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head
------------------------------------------------------------
ChatTTS
简介
ChatTTS是用于日常对话的生成式语音模型,专为对话场景(如大语言模型助手)设计,支持中英文。Awesome - ChatTTS是官方推荐的ChatTTS资源汇总项目,包含快速体验、热门分支、入门教程等社区资源。核心功能
- 语音合成:将文本转换为自然、富有表现力的语音,支持多说话人。
- 细粒度控制:可预测和控制笑声、停顿、感叹词等细粒度韵律特征。
- 功能扩展:部分热门分支项目提供API接口、流式输出、人声增强、背景降噪、文件批量处理等功能。
技术原理
文档未详细提及技术原理,但提到借鉴了bark、XTTSv2和valle的自回归式系统,使用fish - speech的GVQ作为音频分词器,vocos作为预训练声码器。应用场景
- 智能对话助手:为对话式AI助手提供语音交互能力。
- 有声内容创作:生成有声小说、新闻播报等音频内容。
- 语音交互系统:应用于智能家居、车载系统等语音交互场景。
- 2noise/ChatTTS: A generative speech model for daily dialogue.
- libukai/Awesome-ChatTTS: 官方推荐的 ChatTTS 资源汇总项目,整理了全网相关资源和常见问题 || Officially recommended ChatTTS resource collection project
------------------------------------------------------------
GPT-SoVITS
简介
GPT-SoVITS是一个创新的文本转语音(TTS)和语音克隆项目,旨在通过极少量(如1分钟)的语音数据训练出高质量的TTS模型,甚至支持零样本(Zero-Shot)和少样本(Few-Shot)语音克隆。它支持多语言推理,包括中文、英文、日文等,并提供友好的WebUI界面,简化了模型训练和推理过程。核心功能
- 少样本语音克隆与TTS: 仅需5秒语音样本即可实现高相似度的语音克隆,1分钟语音数据即可训练出接近真人的高质量TTS模型。
- 多语言支持: 支持中文、英文、日文、韩文、粤语等多种语言的语音合成和克隆。
- 集成WebUI工具: 提供语音伴奏分离、训练集自动切分、中文ASR(自动语音识别)和文本标注等辅助工具,便于用户制作训练数据集和进行模型推理。
- 快速推理: 针对推理场景进行了优化,提供快速推理分支以提高效率。
技术原理
GPT-SoVITS结合了GPT模型和SoVITS模型。其核心技术原理包括:- GPT-based text-to-semantic modeling: 利用GPT模型进行文本到语义的建模,捕捉文本的语言学和语义信息,为语音合成提供高级特征。
- SoVITS模型: 可能是基于VITS(Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech Synthesis)的改进,用于将语义特征转化为高质量的声学特征,实现语音合成。
- 少样本学习(Few-Shot Learning): 通过预训练模型和高效的适应机制,使其能够仅凭少量目标语音数据快速学习并生成具有目标音色特征的语音。
- 跨语言推理: 通过多语言数据训练,使模型具备对不同语言进行语音合成和克隆的能力。
应用场景
- 内容创作: 为播客、有声读物、视频旁白、动画配音等提供定制化或多样化的语音。
- 个性化语音助手: 开发具有特定人物音色的智能语音助手或聊天机器人。
- 虚拟数字人: 为虚拟主播、虚拟偶像等提供高度真实的语音交互能力。
- 无障碍辅助: 为视障人士或有阅读障碍的用户提供自然流畅的文本朗读服务。
- 游戏开发: 为游戏角色快速生成多种语音台词。
- 语言学习: 提供不同发音人的语音材料,辅助语言学习者进行听力或发音练习。
- RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning)
- GPT-SoVITS/docs/cn/README.md at main · RVC-Boss/GPT-SoVITS
------------------------------------------------------------
Mozilla TTS
简介
mozilla/TTS 是一个用于高级文本到语音生成的库,基于最新研究构建,旨在在训练简易性、速度和质量之间取得最佳平衡。它具有高性能的深度学习模型,涵盖文本到频谱图、说话人编码器、声码器等多种模型,支持多语言,提供了训练、测试、推理等相关工具和资源。https://discourse.mozilla.org/c/tts 是关于TTS的讨论论坛,用于用户提问、交流使用经验、提出功能请求和进行一般讨论等。核心功能
- 提供多种文本到语音生成的深度学习模型,包括文本到频谱图模型、说话人编码器、声码器等。
- 支持多语言,已在20多种语言中用于产品和研究项目。
- 具备训练、测试、推理等功能,提供训练脚本、数据集分析工具、模型转换工具等。
- 提供演示服务器用于模型测试,有Jupyter笔记本用于模型评估、参数选择和数据分析。
- 拥有专门的论坛用于用户交流和问题讨论。
技术原理
- 基于深度学习技术,采用多种先进的模型架构,如Tacotron、Tacotron2、Glow-TTS、SpeedySpeech等文本到频谱图模型,以及GE2E、Angular Loss等说话人编码器模型,还有MelGAN、MultiBandMelGAN、ParallelWaveGAN、GAN-TTS、WaveGrad、WaveRNN等声码器模型。
- 通过高效的模型训练算法,实现快速且有效的模型训练,并在训练过程中记录详细日志用于分析和调优。
- 利用模块化的代码结构,便于新想法的测试和实现。
应用场景
- 语音合成相关产品开发,如智能语音助手、有声读物、语音导航等。
- 研究项目中进行文本到语音技术的探索和实验。
- 为需要将文本转换为语音的场景提供技术支持,如信息播报、辅助阅读等。
- mozilla/TTS: :robot: Deep learning for Text to Speech (Discussion forum: https://discourse.mozilla.org/c/tts)
------------------------------------------------------------
SenseVoice-阿里
简介
SenseVoice是一个具有多种语音理解能力的语音基础模型,涵盖自动语音识别、语言识别、语音情感识别和音频事件检测等功能。它在多语言语音识别、情感识别和事件检测方面表现出色,具有高效推理、方便微调等特点,并提供了服务部署管道。核心功能
- 支持多语言语音识别,准确率高,超过Whisper模型。
- 具备优秀的语音情感识别能力。
- 可进行音频事件检测,如检测多种常见人机交互事件。
- 采用非自回归端到端框架,推理延迟极低。
- 提供方便的微调脚本和策略。
- 支持多语言语音生成、零样本语音生成、跨语言语音克隆和指令跟随等功能。
技术原理
SenseVoice模型的训练使用了大量数据,采用了先进的深度学习技术,如神经网络架构和优化算法,以实现高精度的语音识别、情感识别和事件检测。其非自回归端到端框架有助于降低推理延迟。应用场景
- 语音识别领域,如语音助手、语音转文本应用等。
- 情感分析场景,例如分析语音中的情感倾向。
- 音频事件检测场景,如智能家居中的声音检测。
- FunAudioLLM/SenseVoice: Multilingual Voice Understanding Model
------------------------------------------------------------
VITA-Audio
简介
VITA-Audio是一个由VITA-MLLM团队开发的开源大型语音语言模型(Speech-Language Model)项目,专注于实现高效的音频生成和处理。它旨在提供一个端到端的语音模型,能够快速生成音频,显著提高推理速度,并致力于通过社区合作不断优化和更新。核心功能
- 端到端语音生成: 能够进行完整的语音生成过程。
- 快速初始音频令牌生成: 大幅缩短首个音频令牌块的生成时间,从236毫秒减少到仅53毫秒。
- 高效推理: 在7B参数规模下,实现3-5倍的推理速度提升。
- 音频处理解决方案: 提供音频的录制、处理、分析和转换等功能。
技术原理
VITA-Audio的核心技术在于其提出的“快速交错跨模态令牌生成”(Fast Interleaved Cross-Modal Token Generation)机制。通过利用一组预填充(prefill)令牌(例如32个),VITA-Audio能够在初始前向传播(initial forward pass)过程中快速生成音频,从而显著减少了生成首个音频块的延迟。这种方法优化了大型语音语言模型的效率,通过并行处理或优化令牌生成顺序,实现了低延迟和高吞缩量的音频输出。应用场景
- 实时语音合成(TTS): 用于需要极低延迟的语音合成应用,如实时对话AI、虚拟助手。
- 智能语音交互系统: 提升语音识别与合成系统的响应速度和用户体验。
- 沉浸式媒体内容创作: 加速音频内容的生成,提高效率。
- 辅助沟通工具: 为有语音障碍的用户提供更流畅、自然的语音输出。
- VITA-MLLM/VITA-Audio: VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model
------------------------------------------------------------
parler-tts
简介
Parler-TTS 是 Hugging Face 开发的一款轻量级文本转语音(TTS)模型,能够生成高质量、自然听感,并具备特定说话者风格(如性别、音高、语调等)的语音。ComfyUI_ParlerTTS 则是基于 Parler-TTS 的一个 ComfyUI 定制节点,旨在简化 Parler-TTS 在 ComfyUI 平台上的部署和使用,提供便捷的图形化界面进行语音合成操作。核心功能
- 高质量语音合成: 能够生成高保真度、听感自然的语音。
- 风格迁移与控制: 支持根据给定说话者的风格(性别、音高、语调等)生成语音,实现个性化语音输出。
- 轻量级设计: 作为一款轻量级模型,方便部署和使用。
- ComfyUI 集成: 通过 ComfyUI_ParlerTTS 节点,提供友好的图形界面操作,支持模型加载、文本输入和语音生成,并支持使用 Hugging Face Hub 或本地路径加载模型检查点。
技术原理
Parler-TTS 模型是基于 Dan Lyth 和 Simon King 提出的“Natural language guidance of high-fidelity text-to-speech with synthetic annotations”研究工作的复现。其核心技术原理在于利用自然语言指导高保真文本转语音,并结合合成标注(synthetic annotations)来训练模型。这使得模型能够理解并复现说话者的特定属性,如情感、语调和音色,从而生成高度个性化的语音。具体实现上,它是一个端到端的神经网络模型,通过训练学习文本到声学特征再到波形的映射。应用场景
- 个性化语音助手: 为智能助手提供具有特定音色和语调的个性化语音。
- 有声读物与播客制作: 快速生成具有不同角色或风格的旁白和对话。
- 多媒体内容创作: 用于视频配音、游戏角色语音、广告宣传等场景,实现定制化语音。
- 无障碍辅助: 为视障人士提供更自然、易于理解的文本朗读服务。
- ComfyUI 工作流集成: 作为 ComfyUI 平台的一部分,与其他节点结合,构建复杂的AI生成艺术或多媒体处理流程。
- huggingface/parler-tts: Inference and training library for high-quality TTS models.
- smthemex/ComfyUIParlerTTS: This is a simple ComfyUI custom TTS node based on Parlertts.
------------------------------------------------------------
MOSS-TTSD
简介
MOSS-TTSD(Text to Spoken Dialogue)是一个开源的双语语音对话生成模型,由OpenMOSS团队开发,旨在将文本对话脚本转换为自然、富有表现力的对话语音。它支持中文和英文,能够生成高质量的会话语音,准确模拟对话中的韵律和语调特征。核心功能
- 双语对话语音合成: 支持中文和英文的文本到语音对话生成。
- 零样本多说话人语音克隆: 能够在无需预先训练的情况下克隆多个说话人的声音。
- 语音事件控制: 提供对语音事件(如停顿、语调)的控制能力。
- 长篇语音生成: 支持单次会话生成长达960秒的语音内容。
- 自然表现力: 生成的语音自然、富有表现力,准确捕捉对话的韵律和语调。
技术原理
MOSS-TTSD基于Qwen3-1.7B-base模型,采用离散语音序列建模方法。该模型通过大规模数据进行训练,其中包括约一百万小时的单说话人语音数据和四十万小时的对话语音数据。这种训练方法使其能够直接从多说话人对话文本输入生成高品质的对话语音,并精细地建模对话中的特征。应用场景
- AI播客制作: 生成自然流畅的对话式AI播客内容。
- 智能客服与对话系统: 为客服机器人和智能助手提供更自然、富有表现力的语音交互体验。
- 多媒体内容创作: 用于电影、动画、有声读物等需要多角色对话配音的场景。
- 虚拟人与数字人: 赋予虚拟角色逼真的语音对话能力。
- 教育与娱乐: 制作语言学习材料、游戏内角色语音等。
VibeVoice – 微软文本转语音模型
VibeVoice是微软推出的一款前沿的开源文本到语音(TTS)模型,专为生成富有表现力、长篇幅、多说话者的对话式音频而设计。它旨在解决传统TTS系统在长音频生成、多说话者连贯性和自然对话流方面的挑战,特别适用于播客、有声读物等场景。VibeVoice目前主要用于研究目的,并已开源,提供1.5B和7B参数版本。

核心功能
- 长篇幅音频生成: 能够生成长达90分钟的对话式音频。
- 多说话者支持: 可合成多达4个不同说话者的语音,并保持其一致性。
- 高表现力与自然度: 生成的语音自然、富有情感,具有对话感。
- 跨语言合成: 支持英语和中文的语音合成。
- 开源可用性: 模型权重开源,供研究人员和开发者使用。
技术原理
VibeVoice的核心技术基于“下一词元扩散框架”(next-token diffusion framework)。它整合了一个大语言模型(LLM),例如VibeVoice-1.5B版本采用了Qwen2.5-1.5B参数的LLM,用于理解文本上下文和对话流。模型通过创新的连续语音标记化技术,即声学(Acoustic)和语义(Semantic)标记器,在超低帧率(7.5 Hz)下高效运行,从而在处理长序列时保持高音频保真度并显著提升计算效率。最后,一个扩散头(diffusion head)负责生成高保真度的声学细节。应用场景
- 播客制作: 生成多说话者、长时间的播客内容。
- 有声读物: 自动生成或辅助制作具有自然语音和情感起伏的有声读物。
- 合成培训内容: 为教育或企业培训创建逼真的语音材料。
- 对话式AI研究: 作为研究工具,探索长篇幅、多轮对话的AI语音生成。
- 多媒体内容创作: 为视频、动画等多种形式的多媒体内容提供高质量的配音。
- GitHub仓库:https://github.com/microsoft/VibeVoice
- HuggingFace模型库:https://huggingface.co/collections/microsoft/vibevoice-68a2ef24a875c44be47b034f
- 技术论文:https://github.com/microsoft/VibeVoice/blob/main/report/TechnicalReport.pdf
stable-audio-tools
核心功能
- Stable Audio Tools代码库提供音频生成模型的训练和推理功能,包括基本的Gradio接口测试模型,支持多种模型类型训练、微调,以及模型权重处理等。
- Stable Audio Open Small模型可用于设备端音频控制的实际部署。
技术原理
基于PyTorch 2.5或更高版本,利用Flash Attention和Flex Attention支持,采用JSON配置文件定义模型超参数、训练设置和数据集信息。通过PyTorch Lightning实现多GPU和多节点训练,训练过程中模型会被包装在“训练包装器”中,训练完成后可通过unwrap_model.py脚本解包模型。应用场景
- 音频生成领域,可用于生成各种音频内容。
- 设备端音频控制,实现如智能音箱等设备上的音频相关功能。
- Stability-AI/stable-audio-tools: Generative models for conditional audio generation
- Stability AI and Arm Collaborate to Release Stable Audio Open Small, Enabling Real-World Deployment for On-Device Audio Generation — Stability AI
- stabilityai/stable-audio-open-small · Hugging Face
------------------------------------------------------------
ThinkSound
简介
ThinkSound是一种利用思维链推理实现视频音频生成与编辑的框架,通过三个互补阶段生成和编辑音频,还引入了带结构化推理注释的数据集,在视频到音频生成任务中表现出色。核心功能
- 基于思维链推理进行逐步、交互式音频生成与编辑。
- 分三个阶段:基础拟音生成、交互式以对象为中心的细化、自然语言指令引导的定向编辑。
技术原理
- 利用多模态大语言模型生成上下文对齐的思维链推理,指导统一音频基础模型。
- 文本编码策略上,思维链推理提高音频保真度,整合CLIP对比特征与T5上下文推理提升性能。
- 多模态集成机制方面,视频和音频特征按元素相加及门控融合效果较好。
应用场景
- 为视频生成模型提供配音。
- 交互式逐步拟音创作,如专注于特定声音元素的提取、修复和编辑。
ThinkSound-github ThinkSound-官网 ThinkSound-Hugging Face
KittenTTS – KittenML开源的轻量级文本转语音模型
KittenTTS是由KittenML团队开发的一款轻量级开源文本转语音(TTS)模型。该模型以其极小的体积(通常小于25MB,甚至仅1500万参数)和强大的CPU优化能力为主要特点,使其无需图形处理器(GPU)即可在低功耗设备上高效运行,旨在提供高质量、真实的语音合成。
核心功能
- 文本转语音合成: 将输入的文本内容转换为自然流畅的语音输出。
- 轻量级部署: 模型文件体积小,易于集成到资源受限的设备或应用中。
- CPU优化运行: 专为中央处理器(CPU)进行了深度优化,无需依赖高性能GPU,降低了硬件成本和功耗。
- 高质量语音: 能够生成清晰、逼真且具有表现力的语音。
- 多种预设声音: 提供多种高质量的预设语音选择。
技术原理
KittenTTS基于先进的深度学习技术实现文本到语音的转换。其核心技术原理在于采用高效、紧凑的模型架构设计,显著减少了模型的参数量(如15M参数),从而实现了超小的模型体积。同时,通过专门的算法和优化策略,使得模型能够在仅使用CPU的情况下,依然保持高效的推理速度和高质量的语音输出,尤其适用于对计算资源和功耗有严格限制的边缘计算和嵌入式系统。应用场景
- 低功耗设备: 适用于智能音箱、物联网设备、智能家电等对能耗和体积有严格要求的硬件平台。
- 边缘计算: 在不需要云端算力支持的边缘设备上实现本地语音合成,提升响应速度和数据隐私性。
- 移动应用: 集成到手机应用或嵌入式系统中,为用户提供语音播报、导航等功能。
- 教育领域: 可应用于编程教育平台,为青少年提供交互式语音反馈。
- 个人及商业应用: 凡是需要高质量、低成本语音合成的场景,如内容创作、有声读物、智能客服等。
- Github仓库:https://github.com/KittenML/KittenTTS
FireRedTTS-2 – 小红书文本转语音
FireRedTTS-2 是一个先进的流式、多说话人文本转语音(TTS)系统,专为长对话生成设计,旨在解决现有对话 TTS 系统在稳定性、上下文连贯性和实时性方面的局限。它能实现低延迟、高保真、多语言的语音合成,并支持情感韵律生成和零样本语音克隆,为播客制作、聊天机器人等应用提供高质量、自然的语音输出。

核心功能
- 流式多说话人对话生成: 支持多个说话人,能够进行长达数分钟的对话生成,并可扩展。
- 低延迟与高保真: 具备实时流式生成能力,如首次数据包延迟低至140毫秒,同时保证高质量音频输出。
- 多语言支持与零样本克隆: 支持英语、中文、日语、韩语等多种语言,并具备零样本跨语言及语码转换语音克隆能力。
- 情感与韵律控制: 能够根据上下文生成富有情感的语音,提升交互体验,并保持稳定的音质和韵律。
- 高效适应性: 能以少量数据快速适应新说话人或情感风格。
技术原理
FireRedTTS-2 核心采用双Transformer架构,结合创新的低帧率流式语音分词器(12.5Hz)。该分词器能够编码更丰富的语义信息,缩短语音序列,并支持高保真流式解码,适用于实时应用。系统通过文本-语音交错格式处理对话,将每个对话回合表示为说话人标签、文本输入和时间对齐的语音 tokens,从而实现工业规模的流式对话 TTS,有效解决稳定性、上下文传播和高效生成问题。应用场景
- 播客与有声内容生成: 用于制作多说话人、多语言的播客和长篇有声读物。
- 智能聊天机器人与虚拟助手: 为聊天框架集成提供实时、富有情感和上下文感知的语音交互。
- 语音克隆与定制化声音: 支持零样本语音克隆,用于生成与目标说话人高度相似的语音。
- 语音交互系统开发: 提供多样化的测试素材和随机音色生成,满足不同场景的语音交互需求。
- 多语言客服与国际会议: 适用于需要多语言支持的语音应用,如国际化服务。
- 项目官网:https://fireredteam.github.io/demos/fireredtts2/
- Github仓库:https://github.com/FireRedTeam/FireRedTTS2
- arXiv技术论文:https://arxiv.org/pdf/2509.02020v1
IndexTTS2 – B站开源的最新文本转语音模型
IndexTTS2是一个由Bilibili开源的文本转语音(TTS)模型,被誉为情感表达和时长控制方面取得突破性进展的自回归零样本TTS系统。它能够实现音色与情绪的独立分离控制,支持多模态情感输入,并在多种语言和风格下生成自然流畅、富有表现力的语音。

核心功能
- 情感与音色分离控制: 用户可以独立指定音色来源和情绪来源,实现精细化的语音情感表达。
- 多模态情感输入: 支持通过情感参考音频、情感描述文本或情感向量等多种方式输入情感信息。
- 精准时长控制: 作为首个具备精准时长控制能力的自回归TTS模型。
- 零样本语音合成: 能够仅通过少量参考音频,合成具有特定音色的新语音。
- 多语言与多风格支持: 能够生成多种语言和风格下的自然语音。
- 中文发音纠正: 支持对汉字发音进行纠正。
技术原理
IndexTTS2是一个GPT风格的文本转语音模型,主要基于XTTS和Tortoise等现有先进TTS技术构建。其核心在于实现了自回归模型中对情感表达和语音时长的精确控制,解决了传统自回归模型生成速度慢的困境。通过情感音色分离技术,模型能够将语音中的音色特征和情感特征解耦,并允许用户独立操纵,这可能涉及复杂的声学模型、情感编码器和时长预测模块。零样本能力则依赖于强大的编码器学习到丰富的声学表示,并通过注意力机制或其他方式将其迁移到新颖的语音合成任务中。应用场景
- 视频配音与内容创作: 为视频、电影、电视节目等提供高质量、情感丰富的旁白和角色配音,支持跨语言配音。
- 语言学习与教育: 提供具有不同情绪和语调的语言教学材料,帮助学习者更好地理解和模仿发音。
- 智能客服与虚拟助手: 生成更具人性化和情感的客服语音,提升用户体验。
- 有声读物与播客: 制作自然流畅、富有表现力的有声内容。
- 辅助交流: 为有语音障碍的人士提供个性化、情感化的发声辅助工具。
- 游戏开发: 为游戏角色生成多样化的对话语音,增强沉浸感。
- 项目官网:https://index-tts.github.io/index-tts2.github.io/
- Github仓库:https://github.com/index-tts/index-tts
- HuggingFace模型库:https://huggingface.co/IndexTeam/IndexTTS-2
- arXiv技术论文:https://arxiv.org/pdf/2506.21619
1.图像创作
众多AI相关工具,包括虚拟试衣、产品图像生成、创意设计、电商辅助等多种类型的AI工具平台,展示了AI技术在时尚、设计、电商等领域的广泛应用。- 提供AI虚拟试穿服装功能,可上传照片实现不同服装的试穿效果展示。
- 具备AI产品图像生成能力,用于电商产品展示等。
- 还有一些平台提供创意设计、电商运营辅助等相关功能。
- 8个免费AI虚拟试衣工具,一键在线试穿各种服装 | AI工具集
- 13个免费的AI商拍工具和网站,一键生成爆款商品图 | AI工具集
- Midjourney
- Midjourney
- 即梦AI - 一站式AI创作平台
- 绘蛙ihuiwa.com/invite?huiwaInviteCode=EMRCAL
- 1.快手Poify
- insMind-AI Photo Editing: Instantly Remove Backgrounds & More | insMind
- AI创意工作室与电商图像编辑工具 | WeShop唯象
- 阿里Pic Copilot
- 万相营造
- 京东:内容生产与管理一站式服务平台 - 内容驱动增长
- Vmake AI - All-in-One Talking Head Video Solution
- PhotoStudio AI
- 创自由-专业AI作图工具-在线图片设计-AI换模穿衣-AI商品图合成替换
- PhotoMagic
- 图生生-为AI作图而生(南京一言万相网络科技有限公司)
- cliclicproductViewdefaultckt
- Cartwheel-文生成动作
- PxBee - 免费AI图片编辑平台,自动识别移除背景 | AI工具集
- AI Image Generator – Text to Image Models
- Style AI - Convert the Photo Image to any Style.
- 文心一格 - AI艺术和创意辅助平台
- Homepage - lib.KALOS.art
- Draft
- 意间|AI绘画
- Arti World
- AI 创作 | 无界AI
- 堆友—多风格AI绘画神器免费生成;多功能AI工具箱集结助力;3D素材在线渲染,免费商用;各类创意设计大赛,等你来战!
- WHEE - AI视觉创作的灵感激发器
- 简单AI一站式AI社区平台 - AI工具AI作图、AI社区、AI素材、AI软件、AI领域知识分享社区-简单AI
- AI 绘画新秀 Leonardo基础教程-AIGuider
- Seede AI - 简单、快速、有趣的图形设计工具
- Try Nero AI Tool Free!#Enlarge#Animate#Colorize#Restore#Avatar#Tag
- 美图
- 智能提示词增强AI图像生成器 | CreateVision AI - 世界首个拟人化AI导师
- 可在线生图的 AI 模型分享社区,还是免费的! | 吐司 tusiart.com
- clikka.ai - AI产品摄影工具
FLUX.1 Krea [dev] – 黑森林联合Krea AI开源的文生图模型
简介
FLUX.1 Krea [dev] 是 Black Forest Labs (BFL) 与 Krea AI 合作推出的一款最先进的开源文本到图像生成模型。作为 Krea 1 的开放权重版本,它致力于生成更逼真、多样化且具有独特美学风格的图像,旨在克服传统AI图像生成中常见的过度饱和及“AI外观”问题,从而达到新的照片级真实感水平。该模型具有“有主见”的特点,能为用户带来视觉上引人入胜的惊喜。
核心功能
- 高逼真度图像生成:能够生成高质量、逼真且避免传统AI图像常见缺陷(如模糊背景、蜡质纹理)的图像。
- 独特美学风格:拥有鲜明独特的视觉风格,生成图像多样且富有艺术感。
- 高度定制化与兼容性:与 FLUX.1 [dev] 生态系统兼容,支持 diffusers 库和 ComfyUI,便于进行下游任务的定制和优化。
- 灵活性与控制:支持通过文本提示、风格参考、宽高比调整以及集成参考图像来精细控制图像生成。
- 多模型选择:提供如 FLUX (Default), FLUX 1.1 Pro, FLUX 1.1 Pro Ultra, FLUX Kontext Pro 等多个模型版本,以满足不同使用场景需求(如图像编辑、高级推理)。
技术原理
FLUX.1 Krea [dev] 是一个拥有 120 亿参数的整流流 (rectified flow) 变换器模型,能够从文本描述生成图像。它并非基于海量数据集训练,而是通过精选的高质量训练数据进行训练,以确保卓越的审美控制和图像质量。该模型旨在生成不含过度饱和纹理的图像,这在文本到图像生成领域是一个已知问题。其“有主见”的特性体现在通过优化训练过程和数据选择,使模型在生成图像时展现出特定且优质的视觉倾向。应用场景
- 创意设计与广告:快速生成高质量的海报、宣传册和社交媒体图像,满足品牌视觉需求。
- 影视与游戏制作:为影视制作和游戏开发提供角色、场景和道具的概念设计图,加速创作流程并提升视觉效果。
- 教育与培训:生成科学插图、历史场景和虚拟实验室,增强教学互动性和学习效果。
- 产品设计与开发:帮助工业设计公司和服装品牌快速生成产品原型图和虚拟试穿效果,优化设计和开发流程。
- 医疗与健康:为医院和医学院生成人体解剖图、病理图像和虚拟医疗场景,辅助医学教育和心理治疗。
- 个人创意与艺术创作:为艺术家和个人用户提供强大的工具,实现其视觉创意。
- 项目官网:https://bfl.ai/announcements/flux-1-krea-dev
- GitHub仓库:https://github.com/krea-ai/flux-krea
- HuggingFace模型库:https://huggingface.co/black-forest-labs/FLUX.1-Krea-dev
简介
百度绘想(Huixiang)是一个由百度商业研发团队推出的AI视频创作平台,旨在通过人工智能技术简化视频制作流程,降低创作门槛。该平台与自研的视频生成模型MuseSteamer协同工作,使用户仅需上传一张图片即可生成专业级视频内容,极大地激发了内容创作的多样性和创意空间。核心功能
- 图像生成视频: 用户上传单张图片即可快速生成专业质量的视频内容。
- AI工具套件: 提供一套AI工具,旨在全面优化和转换视频创作过程。
- 简化制作流程: 显著减少传统视频制作所需的时间和复杂性。
技术原理
绘想平台的核心技术基于“生成式AI(Generative AI)”与“多模态技术(Multimodal Technology)”的融合。其中,自研的视频生成模型MuseSteamer是实现从单一图像到视频转换的关键。这意味着平台能够理解和处理不同形式的数据(如图像和潜在的文本描述),并生成连贯、高质量的视频输出。应用场景
- 内容创作者: 帮助视频内容创作者突破传统制作瓶颈,快速生成视频,提升创作效率和产出量。
- 企业营销: 适用于企业快速制作产品介绍、广告宣传、社交媒体短视频等。
- 个人用户: 便于普通用户轻松制作个人视频内容,如生活记录、社交分享等。
- 多媒体制作行业: 满足对原生内容生产的强烈需求,推动行业内的AI应用。
- 绘想--百度-AI视频创作平台
------------------------------------------------------------
1.视频创作
涵盖了众多与AI商业平台、视频、音乐等相关的网站,包括AI创作平台、视频编辑与创作工具网站、音乐平台等,涉及多种功能和领域。
- 可灵 AI - 新一代 AI 创意生产力平台
- 即梦AI - 注册登录
- 腾讯智影-在线智能视频创作平台
- 度加创作工具-百度官方出品-人人可用的AIGC创作平台-一站式聚合百度AIGC能力
- 海螺视频:每个想法都是一部大片
- 网易天音 - 一站式AI音乐创作工具 - 官网
- 灵动AI - 新一代创意营销影像生成AI智能体
- doubao-seedance-1.0-lite--火山方舟大模型服务平台-火山引擎
- MemenomeLM | Brainrot AI
- AI营销视觉生成平台VibeNecto - AI-Powered Vibe Marketing Platform
- VideoTutor | AI教育
- 拍我AI - PixVerse国内正版,热门AI特效
- Introducing Modify Video | Luma AI
- 腾讯混元AI视频
- 剪映官网-全能易用的桌面端剪辑软件-轻而易剪 上演大幕
- Runway | Tools for human imagination.
- Fliki - Turn text into videos with AI voices
- Free AI Image & Video Generation with 4K Editing | vivago.ai
- HeyGen - AI Spokesperson Video Creator
- Krea
- Pika
- Huanshere/VideoLingo: Netflix-level subtitle cutting, translation, alignment, and even dubbing - one-click fully automated AI video subtitle team | Netflix级字幕切割、翻译、对齐、甚至加上配音,一键全自动视频搬运AI字幕组
- FilmAction - 一站式 AI 电影创作平台
- VFX8电影制作
- 万兴天幕AI - 异想天开 一气呵成
- Runway | Game WorldsAI游戏创作
------------------------------------------------------------
PreenCut-AI剪辑
简介
PreenCut是一个基于AI的视频检索与剪辑工具,可对视频进行内容分析,支持添加自定义分析提示,能在分析表中查看结果,还提供了Restful api用于上传文件、创建任务和查询任务结果等操作,项目采用MIT许可。核心功能
- 对视频内容进行分析,支持自定义分析提示。
- 可在分析表中查看视频的开始/结束时间戳、持续时间、内容摘要、AI生成的标签等结果。
- 提供“Re - analyze”标签用于尝试不同提示,“Cut”标签用于选择视频片段并选择导出模式。
- 具备Restful api,包含上传文件、创建任务、查询任务结果等接口。
技术原理
利用语音识别技术(如WhisperX等)将视频中的语音转换为文本,结合自然语言处理技术对文本进行分析处理,从而实现对视频内容的理解、提取关键信息、生成标签等功能。通过调整相关参数(如WHISPERBATCHSIZE)来优化处理性能,针对不同硬件环境(如CPU、GPU)选择合适的模型大小以提高处理效率。应用场景
- 视频内容分析与理解,快速获取视频中的关键信息。
- 视频剪辑,方便地选取特定片段并进行导出。
- 视频检索,根据内容标签等快速定位相关视频。
- roothch/PreenCut: AI-Powered Video Retrieval & Clipping Tool
------------------------------------------------------------
快手-LivePortrait表情姿态迁移
简介
- 介绍了开源项目LivePortrait,它是一个可控人像视频生成框架,能将驱动视频的表情、姿态迁移到人像视频上。其对应的论文题目为《LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control》,一经开源便获广泛关注,在GitHub上收获大量Stars等。还阐述了其技术方法、训练阶段、实验对比及应用拓展等内容。
核心功能
- 可准确、实时地将驱动视频的表情、姿态迁移到静态或动态人像视频上,生成极具表现力的视频结果。
技术原理
- 探索基于隐式关键点框架,采用视频 - 图片混合训练策略,升级网络结构,设计更好的动作建模和优化方式。将隐式关键点看成面部混合变形的隐式表示,提出贴合和重定向模块。模型训练分两阶段,第一阶段为基础模型训练,改进基于隐式点的框架,包括数据收集、混合训练、网络结构升级等;第二阶段为贴合和重定向模块训练,设计相关模块并计算损失函数进行优化。
应用场景
- 用于人像视频编辑,如对给定人像视频的头部区域进行动作编辑;可实现多人合照驱动;对动物肖像进行精准驱动;相关技术已在快手魔表、私信、快影AI表情玩法、直播及噗叽APP等业务落地 。
- LivePortrait/readmezhcn.md at main · KwaiVGI/LivePortrait
- 快手开源LivePortrait,GitHub 6.6K Star,实现表情姿态极速迁移-今日头条
AutoClip – 开源的AI视频剪辑工具
简介
AutoClip是一款基于人工智能的智能视频切片与合集推荐系统,旨在帮助用户高效地从长视频内容中提取精彩片段,并自动生成符合SEO优化标准的标题、描述及标签。它通过自动化流程显著提升视频内容创作效率,尤其适用于快速制作短视频和系列合集。核心功能
- 智能视频切片:利用AI技术自动识别视频中的高光时刻或关键信息,进行精准的片段剪辑。
- 多平台视频处理:支持从Bilibili等视频平台自动下载视频,并进行后续处理。
- 字幕与内容提取:能够自动提取视频字幕,并基于字幕进行大纲提取和时间轴生成。
- 自动化内容生成:智能生成SEO友好的视频标题、描述和标签,提升内容曝光度。
- 合集推荐与生成:根据内容分析,智能推荐并生成相关的视频合集。
- 一键发布:支持将生成的视频内容自动发布到YouTube、TikTok等社交媒体平台。
技术原理
AutoClip的核心技术原理基于多模态AI和自动化处理流程。- AI内容理解:通过自然语言处理(NLP)技术分析视频字幕,进行大纲提取、关键信息识别和文本生成。
- 视频流处理:采用多阶段处理流水线,包括大纲提取(step1outline)、时间轴生成(step2timeline)、片段评分计算(step3scoring)、标题生成(step4title)、内容聚类分析(step5clustering)以及最终的视频生成(step6video)。
- 机器学习算法:应用于片段价值评估和内容聚类,以确保切片的质量和相关性。
- 自动化API集成:通过与视频平台API或网络爬虫技术结合,实现视频的自动下载和内容的自动化发布。
- 前端与后端分离架构:通常采用React等前端框架与Python等后端语言构建,实现高效的用户交互和业务逻辑处理。
应用场景
- 内容创作者与Vlogger:大幅缩短视频剪辑和后期制作时间,快速产出短视频内容,提高更新频率。
- 媒体与营销机构:高效制作营销短片、宣传片或社交媒体内容,抓住热门事件。
- 知识分享与教育:从长篇讲座或教程中快速提取知识点,制作精炼的教育短片。
- 个人用户:便捷地从直播录像、个人影片中剪辑精彩瞬间,分享至社交平台。
- 二次创作:为视频二次创作者提供便捷的素材提取和内容重组工具。
- 项目官网:https://zhouxiaoka.github.io/autoclip_intro/
- GitHub仓库:https://github.com/zhouxiaoka/autoclip_mvp
------------------------------------------------------------
1.语音识别-生成字幕
简介
涉及语音识别、视频字幕处理等多个领域。包括OpenAI的Whisper语音识别模型及其相关变体,还有基于大语言模型的视频字幕处理工具VideoCaptioner等,展示了语音技术在不同场景下的应用与发展。核心功能
- 语音识别:如OpenAI的Whisper是通用语音识别模型,支持多语言、多任务,有不同模型尺寸可选;还有基于Whisper的Const-me/Whisper实现高性能GPGPU推理,xenova/whisper-web能在浏览器中运行实现ML-powered语音识别,以及阿里云的智能语音交互提供语音识别服务,支持多语种、多产品形态。
- 视频字幕处理:VideoCaptioner是基于大语言模型的视频字幕处理助手,支持语音识别、字幕断句、优化、翻译全流程处理;WhisperX提供快速自动语音识别,带有word-level时间戳和说话人识别功能。
技术原理
- 语音识别:以Whisper为例,它是基于Transformer架构的序列到序列模型,在多种语音处理任务上进行训练,将不同任务表示为序列的token由解码器预测,通过特殊token实现多任务训练。
- 视频字幕处理:VideoCaptioner利用大语言模型在理解上下文方面的优势,对语音识别生成的字幕进一步处理,修正错别字、统一专业术语等;WhisperX通过wav2vec2进行强制对齐来实现准确的word-level时间戳,利用pyannote-audio进行说话人识别。
应用场景
- 语音识别:可用于语音转文字、语言翻译、语音指令识别、有声读物制作、会议记录、视频字幕生成等。
- 视频字幕处理:适用于视频会议、在线教育视频、培训视频、自媒体视频等场景,为视频添加准确、优化的字幕。
- 飞书妙记-智能会议纪要,快捷语音识别转文字,将会议交流沉淀为知识,一切皆可妙记!
- openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision
- WEIFENG2333/VideoCaptioner: 🎬 卡卡字幕助手 | VideoCaptioner - 基于 LLM 的智能字幕助手 - 视频字幕生成、断句、校正、字幕翻译全流程处理!- A powered tool for easy and efficient video subtitling.
- chidiwilliams/buzz: Buzz transcribes and translates audio offline on your personal computer. Powered by OpenAI's Whisper.
- Const-me/Whisper: High-performance GPGPU inference of OpenAI's Whisper automatic speech recognition (ASR) model
- m-bain/whisperX: WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization)
- xenova/whisper-web: ML-powered speech recognition directly in your browser
- 智能语音交互语音识别系统自然语言处理-阿里云
- AI Fooler - 免费在线AI人声伴奏分离工具
------------------------------------------------------------
2.AI-ETL
------------------------------------------------------------
0.MinerU
简介
MinerU是一个一站式、开源、高质量的数据提取工具,支持PDF、网页、多格式电子书提取。它具有多种功能,可处理多种文档格式,在不同平台上运行,并不断更新改进。核心功能
- 文档格式转换:能将PDF、网页、多格式电子书等转换为Markdown格式。
- 内容提取:可去除页眉、页脚、脚注、页码等元素,提取图像、表格、公式等内容,并自动识别转换公式为LaTeX格式、表格为HTML格式。
- 多语言支持:支持84种语言的检测与识别。
- 多种运行模式:支持纯CPU环境运行,也支持GPU(CUDA)/NPU(CANN)/MPS加速,有命令行和API调用方式。
技术原理
- 基于多种技术:运用PDF-Extract-Kit等工具包,集成如DocLayout-YOLO、UniMERNet等模型,实现文档内容的精准提取与格式转换。
- 模型自动管理:具备模型自动下载与更新机制,方便用户使用最新模型。
应用场景
- 学术研究:方便提取文献中的关键信息。
- 办公场景:快速处理文档,提高工作效率。
- 数据采集:获取各种文档中的数据用于分析。
- opendatalab/MinerU: A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。
- MinerU/READMEzh-CN.md at master · opendatalab/MinerU
------------------------------------------------------------
0.airbyte 数据集成平台
简介
Airbyte是一个数据集成平台,用于构建ETL/ELT数据管道,可将数据从各种来源传输到不同目的地,有开源和云托管两种模式,提供300多个连接器,还介绍了其入门指南、社区参与方式、贡献途径及安全相关信息。核心功能
- 提供大量连接器,涵盖多种数据来源与目的地,实现数据集成。
- 支持通过无代码连接器构建器或低代码CDK快速创建连接器。
- 可与多种工具(如Airflow、Prefect等)协同编排数据同步。
技术原理
利用自身开发的框架及相关技术,结合不同编程语言(如Python、Kotlin、Java等)编写连接器代码,实现对各种数据源和目的地的适配与数据传输逻辑。通过构建数据管道,依据配置对数据进行抽取、转换和加载操作。应用场景
- 数据仓库建设:整合多种数据源数据至数据仓库。
- 数据湖搭建:将不同来源数据汇聚到数据湖。
- 日常数据同步:定期同步不同系统间数据。
- airbytehq/airbyte:领先的数据集成平台,适用于从 API、数据库和文件到数据仓库、数据湖和数据湖屋的 ETL/ELT 数据管道。支持自托管和云托管。 --- airbytehq/airbyte: The leading data integration platform for ETL / ELT data pipelines from APIs, databases & files to data warehouses, data lakes & data lakehouses. Both self-hosted and Cloud-hosted.
------------------------------------------------------------
0.omniparse
简介
OmniParse是一个将任何非结构化数据摄入并解析为结构化、可操作数据的平台,适用于GenAI(LLM)应用。它支持约20种文件类型,具有完全本地化、可轻松部署等特点。核心功能
- 支持多种文件类型的解析,包括文档、多媒体和网页等。
- 可将各类数据转换为高质量结构化markdown。
- 具备表格提取、图像提取/字幕、音频/视频转录、网页爬取等功能。
技术原理
通过深度学习模型,如Surya OCR系列模型、Florence-2、Whisper Small等,对不同类型的数据进行处理和解析。利用这些模型的能力来实现各种数据处理任务,如文档内容提取、多媒体信息转换等。应用场景
- 适用于需要处理和分析大量非结构化数据的场景,如文档管理、信息提取、内容创作辅助等。
- 可用于GenAI相关应用,如RAG、模型微调等,为其提供结构化数据支持。
- adithya-s-k/omniparse: Ingest, parse, and optimize any data format ➡️ from documents to multimedia ➡️ for enhanced compatibility with GenAI frameworks
------------------------------------------------------------
0.unstructured
简介
unstructured库提供用于摄取和预处理图像及文本文档的开源组件,围绕简化和优化LLMs数据处理工作流程,其模块化功能和连接器形成连贯系统,简化数据摄取和预处理。还介绍了安装方式、使用示例、文档及相关注意事项等内容。
核心功能
提供开源组件处理非结构化数据,包括图像和多种文本文档,可简化LLMs数据处理工作流程,具备模块化功能和连接器以适应不同平台并高效转化非结构化数据为结构化输出,提供多种使用方式如容器运行、安装库等。技术原理
利用多种开源技术,如针对不同文档类型的处理依赖相应的工具包(如处理PDF需poppler-utils等),通过检测文件类型并路由到特定的文件分区函数来实现数据处理,如使用partition函数根据文件类型调用对应处理逻辑。
应用场景
适用于各种涉及非结构化数据处理的场景,如LLMs数据预处理、文档分析(包括PDF、HTML、Word等文档)、图像分析等领域的数据摄取与预处理工作。- ETL非结构数据处理项目:Unstructured-IO
- Unstructured-IO/unstructured: Open source libraries and APIs to build custom preprocessing pipelines for labeling, training, or production machine learning pipelines.
- pymupdf4llm · PyPI
------------------------------------------------------------
1.PDF-Extract-Kit
简介
PDF-Extract-Kit是用于从复杂多样的PDF文档中高效提取高质量内容的开源工具包,集成多种文档解析模型,具有模块化设计等特点,还提供了评估基准,介绍了模型、使用方法及待办事项等内容。核心功能
能从PDF文档中进行布局检测、公式检测、公式识别、OCR、表格识别等,还可通过运行演示代码实现各模型的具体功能。技术原理
集成了如DocLayout-YOLOft、YOLO-v10ft等多种先进模型用于不同任务,通过对多样文档注释数据进行微调,使其能在各种复杂文档类型上表现良好。应用场景
适用于需要对PDF文档进行内容提取的场景,如开发者构建文档翻译、问答、辅助等应用,也可用于学术研究中对PDF文档内容的处理分析。- opendatalab/PDF-Extract-Kit: A Comprehensive Toolkit for High-Quality PDF Content Extraction
- PDF-Extract-Kit/README-zhCN.md at main · opendatalab/PDF-Extract-Kit
------------------------------------------------------------
1.marker
简介
Marker是一个能将文档快速准确地转换为markdown、JSON、块和HTML的工具,支持多种文件格式,可处理表格、公式等,还能进行图像提取、去除页眉页脚等操作,有多种输出格式和配置选项,在速度和准确性上有优势,且可通过API使用。核心功能
- 支持PDF、图像、PPTX、DOCX等多种文件格式转换。
- 能格式化表格、公式、内联数学、链接等。
- 可提取和保存图像,去除页眉页脚等。
- 支持通过JSON模式进行结构化提取。
- 可借助LLMs提升准确性。
- 提供交互式应用和命令行工具进行文件转换。
技术原理
- 利用深度学习模型组成管道,包括文本提取(必要时OCR)、页面布局检测、块清理与格式化,可选择使用LLM提升质量,最后合并块并对完整文本后处理。
- 各环节按需使用模型,提高速度和准确性。
应用场景
- 科研人员将论文等文档快速转换为markdown便于编辑和分享。
- 办公人员处理各种格式文件,如将合同等转换为合适格式存档。
- 数据处理人员提取文档中的结构化数据。
- VikParuchuri/marker: Convert PDF to markdown quickly with high accuracy
- VikParuchuri/marker: Convert PDF to markdown + JSON quickly with high accuracy
------------------------------------------------------------
1.字节Dolphin
简介
Dolphin是一种通过异构锚点提示进行文档图像解析的模型,它采用分析然后解析的范式,先进行页面级布局分析,再进行元素级内容解析,在多个基准测试中取得了领先性能。核心功能
- 页面级布局分析:通过Swin Transformer对页面图像编码,利用mBart解码器和布局分析提示生成布局元素序列。
- 元素级内容解析:以布局元素为锚点,并行裁剪并编码元素图像,利用特定类型提示并行解析不同元素的内容。
技术原理
- 页面级布局分析:利用Swin Transformer作为视觉编码器,对页面图像进行编码,输出视觉嵌入序列;通过mBart解码器和布局分析提示,生成结构化布局序列。
- 元素级内容解析:对布局元素对应的图像区域进行裁剪和编码,生成元素特定的视觉特征;利用特定类型提示,并行解析不同元素的内容。
应用场景
- 文档图像解析:从包含文本段落、图形、公式和表格等复杂交织元素的图像中提取结构化内容。
- 下游内容分析:为下游内容分析提供基础能力,弥合视觉内容与机器可读格式之间的差距。
- bytedance/Dolphin: The official repo for “Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting”, ACL, 2025.
- ByteDance/Dolphin · Hugging Face
- Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting
------------------------------------------------------------
2.gptpdf
简介
gptpdf仓库利用GPT将PDF解析为markdown,方法简单且能较好解析多种内容,还介绍了处理流程、安装使用方式及相关API等。
核心功能
- 运用视觉大语言模型(如GPT - 4o)把PDF文件解析成markdown文件,并返回解析后的markdown内容与所有图片路径列表。
技术原理
- 借助PyMuPDF库解析PDF找出非文本区域并标记,再通过大型视觉模型(如GPT - 4o)进行解析得到markdown文件。
应用场景
- 适用于需要将PDF文件转换为便于编辑和处理的markdown格式的场景,如文档整理、知识提取等。
- CosmosShadow/gptpdf: Using GPT to parse PDF
- gptpdf/READMECN.md at main · CosmosShadow/gptpdf
------------------------------------------------------------
2.open-parse
简介
Open Parse是一个用于文档解析的项目,旨在为LLM提供更好的文件解析功能。它能通过视觉识别文档布局并有效分块,与其他解析器不同,具有文本分割、支持Markdown、高精度表格支持等特点,还提供了示例代码和安装说明。核心功能
- 提供灵活易用的库,能视觉识别文档布局并有效分块。
- 支持文本分割、Markdown解析、高精度表格提取。
- 可轻松实现自定义后处理步骤。
技术原理
利用先进的视觉分析技术识别文档布局,通过文本分割、语义嵌入等方式对文档进行处理。使用pdfminer.six处理PDF,PyMuPDF进行表格检测等,还可借助深度学习模型如unitable进行表格解析。应用场景
- 适用于各种需要对文档进行解析和处理以用于LLM的场景。
- 例如文档内容分析、信息提取、知识图谱构建等领域。
- Filimoa/open-parse: Improved file parsing for LLM’s
------------------------------------------------------------
2.zerox
简介
zeroX是一个用于OCR(光学字符识别)和文档提取的项目,它提供了一种简单的方法来将文档转换为AI可处理的格式。其核心功能是通过调用视觉模型,将各种格式的文件(如PDF、DOCX、图像等)转换为Markdown格式的文本。该项目具有跨平台、多模型支持的特点,在文档处理和AI数据准备方面具有重要应用价值。核心功能
- 支持多种文件格式,包括PDF、DOCX、图像等。
- 能够将文件转换为一系列图像,并对每个图像进行OCR处理。
- 调用GPT等模型,将图像转换为Markdown格式的文本。
- 支持数据提取,可根据特定模式从文档中提取结构化数据。
技术原理
- 采用
graphicsmagick和ghostscript(Node端)或poppler(Python端)将PDF文件转换为图像。 - 利用OCR技术识别图像中的文字。
- 调用GPT等模型,根据图像内容生成Markdown文本。
- 支持通过配置文件或参数设置来调整转换过程中的各种参数,如模型选择、页面处理选项等。
应用场景
- 文档处理:将扫描文档、电子文档转换为可编辑的文本格式,便于后续的文本分析和处理。
- 数据提取:从文档中提取特定的信息,如表格数据、发票信息等,用于数据整理和分析。
- AI数据准备:为AI模型提供经过处理的文本数据,用于训练和优化模型。
- getomni-ai/zerox: Zero shot pdf OCR with gpt-4o-mini
------------------------------------------------------------
3.多模态抽取
简介
GOT-OCR2.0是一个开源项目,旨在通过统一的端到端模型实现OCR 2.0。它提供了代码、权重和基准测试,并支持多种功能,如训练、微调、评估和演示。核心功能
- 提供多种OCR功能,包括普通文本OCR、格式文本OCR、细粒度OCR和多裁剪OCR。
- 支持模型训练和微调,可使用不同的数据集和策略。
- 提供评估工具,用于评估模型在特定基准上的性能。
- 具备演示功能,可展示OCR结果的渲染。
技术原理
该项目基于深度学习技术,使用统一的端到端模型来处理OCR任务。具体实现细节可能涉及到模型架构、损失函数、优化算法等方面的选择和调整。应用场景
- 文档处理:对各种文档中的文字进行识别和提取。
- 图像识别:从图像中识别文字信息。
- 信息检索:帮助快速定位和提取图像中的文字信息,用于信息检索系统。
- 自动化流程:在自动化办公流程中,实现文字的自动识别和处理。
- GOT-OCR-2.0
------------------------------------------------------------
OWL达摩院多模态信息抽取
简介
mPLUG-Owl系列和mPLUG-DocOwl是X-PLUG团队开发的两个强大的多模态大型语言模型系列。mPLUG-Owl旨在赋予大型语言模型多模态能力,尤其擅长处理长图像序列理解,是一个通用的多模态大模型家族。mPLUG-DocOwl则专注于文档理解领域,是一个模块化的多模态大型语言模型,特别强调无OCR的文档理解能力。核心功能
- mPLUG-Owl: 模块化赋能LLM多模态能力,实现对单一图像、多图像及视频的理解,并突破性地解决了长视觉序列的理解难题,能处理更长的视觉输入。
- mPLUG-DocOwl: 专注于文档理解,提供无OCR的文档视觉问答、信息视觉问答、图表问答和文本视觉问答等功能,能够统一学习文档结构,高效地从各类文档中提取和理解信息。
技术原理
- mPLUG-Owl: 采用模块化设计,将多模态能力注入大型语言模型。mPLUG-Owl3引入了“Hyper Attention”机制,显著提升了长视觉序列理解的速度和处理长度,并利用闪存注意力(flash attention)提高训练效率。
- mPLUG-DocOwl: 基于模块化多模态大型语言模型架构,核心技术在于其“统一结构学习”(Unified Structure Learning)方法,实现了无需传统OCR即可进行高效的文档理解。通过大规模文档数据集(如DocStruct4M、DocDownstream-1.0、DocReason25K)进行训练。
应用场景
- mPLUG-Owl: 广泛应用于通用多模态人工智能领域,包括图像理解、视频内容分析、视觉问答、多图像场景推理等,特别适用于需要理解复杂视觉上下文或长视频序列的场景。
- mPLUG-DocOwl: 主要应用于各类文档处理场景,如智能文档审查、合同分析、发票识别、报告解读、表格数据提取、图表信息问答等,尤其适用于需要精确理解文档内容而不需要依赖传统OCR技术的场景。
- X-PLUG/mPLUG-Owl: mPLUG-Owl🦉: Modularization Empowers Large Language Models with Multimodality
- X-PLUG/mPLUG-DocOwl: mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding
------------------------------------------------------------
MonkeyOCR金山文档解析模型
简介
MonkeyOCR是一个文档解析项目,采用结构-识别-关系(SRR)三元组范式,简化了模块化方法的多工具管道,避免了使用大型多模态模型进行全页文档处理的低效率。该项目介绍了其方法、性能、使用方法等内容,还展示了在文档解析任务上的优势,如在中英文文档处理上优于其他模型,多页文档解析速度快等。核心功能
- 采用SRR三元组范式进行文档解析。
- 支持中英文文档解析。
- 提供多种运行方式,如命令行、Gradio演示、FastAPI服务等。
- 可输出处理后的Markdown文件、布局结果文件和中间块结果文件。
技术原理
MonkeyOCR采用结构-识别-关系(SRR)三元组范式,通过简化多工具管道并避免使用大型多模态模型进行全页文档处理的低效率,实现高效的文档解析。该范式可能涉及对文档结构的分析、内容的识别以及各部分之间关系的预测,从而完成文档的解析任务。应用场景
- 文档内容提取,可将文档中的文字、公式、表格等信息提取出来并整理成结构化的文本。
- 信息检索,方便用户快速定位和查找文档中的特定信息。
- 办公自动化,例如自动处理合同、报告等文档,提高工作效率。
- Yuliang-Liu/MonkeyOCR: A lightweight LMM-based Document Parsing Model
- echo840/MonkeyOCR · Hugging Face
- MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm
- MonkeyOCR-demo
------------------------------------------------------------
chatIE信息抽取
简介
ChatIE是一个通过与ChatGPT聊天实现零样本信息抽取的开源工具,可自动从原始句子中提取结构化信息并进行深入分析,支持实体关系联合抽取、命名实体识别、事件抽取等功能。核心功能
- 支持RE(实体关系联合抽取)、NER(命名实体识别)、EE(事件抽取)。
- 能自动从原始句子中提取结构化信息并做深入分析。
技术原理
将零样本IE任务转变为两阶段框架的多轮问答问题,借助ChatGPT的强大功能,通过特定的提示方式来实现信息抽取。应用场景
- 从文本中提取如实体关系三元组、命名实体、事件等结构化信息。
- 辅助企业利用有价值的结构化信息做出精准且能提升业务的决策。
- ChatIE
- ChatIE: 信息抽取
------------------------------------------------------------
2.AI-PPT
- MotionGo
- AiPPT - 全智能 AI 一键生成 PPT
- PPT AI - AI Presentation Maker, Fast and Easy | PPT.AI
- Napkin AI -文生图 The visual AI for business storytelling
- Gamma
- boardmix-ai生成ppt,免费一键生成ppt软件
- AI生成PPT模板 - PPT智能文案与排版--PPT.CN
- AI Presentation Maker | Make it Beautiful with Beautiful.ai
- Pageon.ai: The AI Native Visual Communication Tool
- 思维导图Ideamap | A Better way to Brainstorm with AI
- 墨刀 - 适合产品经理的原型设计及协作平台
- 蚂蚁ppt
Slidev 开源AI PPT制作工具
简介
Slidev是一款为开发者打造的演示文稿工具,具有多种特性和丰富功能,提供了在线体验、项目初始化等方式,并配有中英双语等多种语言的文档。核心功能
- 提供基于 Markdown 的演示文稿创作体验,具备代码高亮、实时编码、主题切换、互动元素嵌入、演示者模式、绘图、LaTeX 支持、图表创建、图标使用、集成编辑器、录制、多种格式导出等功能。
技术原理
- 基于 Vite 实现快速加载,以 Vue 3 驱动 Markdown 内容,借助 UnoCSS 实现按需样式处理,运用 Shiki 和 Monaco Editor 提供代码片段支持与实时编码能力,通过 RecordRTC 实现录制和摄像头视图功能,集成了众多如 VueUse 家族、Iconify、Drauu、KaTeX、Mermaid 等工具来增强各方面特性。
应用场景
- 适用于开发者进行技术分享、方案展示、项目汇报等场景,方便快捷地创建出专业且功能丰富的演示文稿。
- slidevjs/slidev: Presentation Slides for Developers
- Slidev
- Slidev-中文
智谱Z.ai 生成PPT
简介
智谱Z.ai是综合性的AI工具平台,提供从内容创作到办公效率提升的各类AI服务,特别强调了AI在自动化演示文稿生成与总结方面的能力。AI技术正日益成为提升个人和企业工作效率、优化创作流程的关键驱动力。核心功能
- 综合性AI工具集: 提供AI写作、AI图像(生成、编辑、优化)、AI视频、AI办公(幻灯片、数据处理、思维导图、文档)、AI智能体、AI聊天助手、AI编程、AI设计、AI音频等多种工具。
- 智能内容生成与处理: 能够根据输入文本、文档或主题自动生成演示文稿(PPT)、文章、图像、视频等内容,并支持对现有内容的总结、续写、翻译和优化。
- 文档与演示文稿自动化: 支持上传PPTX、Word、PDF等文件进行AI摘要,或基于文本内容一键生成完整且专业的演示文稿,实现快速内容转化和可视化。
- AI辅助学习与分析: 提供AI学习应用(如解答数学问题)、AI金融分析平台、AI内容检测等辅助学习和专业分析功能。
技术原理
- 自然语言处理 (NLP) 与大语言模型 (LLM): 广泛应用于AI写作、聊天、总结和内容生成,通过深度理解和生成人类语言来实现各种自动化功能,如ChatGPT驱动的平台。
- 机器学习与深度学习算法: 用于图像识别、生成、视频处理、数据分析和内容推荐,特别是用于精确提取文档关键信息、分析并生成内容。
- 多模态AI技术: 整合文本、图像、视频、音频等多种数据类型,实现跨模态的内容生成和理解,例如AI生成3D模型、AI动画生成等。
- 智能体 (Agent) 技术: 涉及AI在特定任务中自主决策和执行的能力,如AI自动开发工程师、AI动画生成Agent等。
应用场景
- 办公与生产力: 快速制作演示文稿、撰写文档、处理数据、生成思维导图,大幅提升日常办公效率。
- 内容创作与营销: 辅助文学创作、广告文案生成、图片和视频制作,以及电商营销内容(商品图、种草文案)的自动生成。
- 教育与研究: 提供AI学习辅助、解答学术问题、总结研究资料和教程资源,支持AI安全研究和行为模型学习。
- 软件开发与编程: AI编程工具、AI开发平台、AI智能体开发平台,辅助代码生成和自动化开发流程。
- 设计与媒体: AI设计工具、AI图像插画生成、AI视频工具,革新创意设计和媒体制作流程。
- 金融分析: 开源AI金融分析平台,用于自动化金融数据分析和风险管理。
- 个人助手与娱乐: AI聊天助手、个性化AI伴侣产品、AI互动内容平台等,提供智能对话和娱乐体验。


- 有前端代码能力,能联网搜索、组织页面;
- 具备 Tool Use 能力,能调用接口、精细调整组件;
- 强大的推理能力,能把模糊的用户需求拆解成清晰有逻辑的内容框架。
- 官网:https://chat.z.ai/c/f74c3079-4ffe-4f8e-81dc-e4ea78d11877
- 样例:
""" 提示词:电动汽车价格设定规律分析 - 市场营销团队商业汇报
目标: 创建一份15页以上的PPT文档,为市场营销团队提供关于公司新产品定价的参考。确保内容丰富、配图准确且风格匹配汽车领域,使整体呈现有力且观感良好。
核心部分:
开场引入(1-2页) - 简短介绍电动汽车市场现状及其重要性。 价格设定背景(2-3页) - 分析影响电动汽车价格的关键因素及当前市场的基本情况。 汽车价格分类(3-4页) - 依据不同标准(如品牌、车型、电池容量等)对电动汽车进行价格分类,并附上实例。 定价趋势(2-3页) - 探讨电动汽车定价的趋势,包括过去几年的变化和未来预测。 定价与受众心理匹配分析(2-3页) - 分析不同定价策略如何影响消费者的购买决策过程。 定价建议(2-3页) - 根据前面的分析,提出具体的定价建议以适应市场需求和竞争状况。 整体总结(1-2页) - 总结要点,强调关键信息并提供下一步行动指南。 注意:
确保所有数据和案例都是最新的,并真实可靠。 使用适合手机观看的图表和图片,保证清晰度的同时也要注重美观。 整个PPT应该具有连贯性和逻辑性,便于市场营销团队理解并应用于实际工作中。 """
flashdocs-AI 文稿
简介
FlashDocs 是一款利用人工智能技术,旨在自动化和简化Microsoft PowerPoint和Google Slides演示文稿创建过程的工具。它通过AI赋能,将耗时数小时的幻灯片制作流程缩短至数秒,帮助用户快速生成专业、定制化的演示内容,从而提高工作效率。核心功能
- AI辅助幻灯片生成: 根据简单指令或内容,快速生成完整的演示文稿。
- 多平台兼容: 无缝集成并支持Microsoft PowerPoint和Google Slides。
- API接口: 提供易于使用的API,实现演示文稿的程序化生成和自动化。
- 自定义品牌与样式: 允许用户保留现有品牌风格、布局和幻灯片主题。
- 内容动态填充: 支持文本、图片、表格、图表等内容的动态填充,实现内容的自动化更新。
- 工作流自动化: 自动化市场推广、销售演示、季度业务回顾等多种业务演示场景。
技术原理
FlashDocs 的核心技术原理在于将传统演示文稿(如PowerPoint或Google Slides)转化为程序化的“FlashDocs文档”。此文档内含可动态填充的占位符(placeholders),这些占位符涵盖了文本、图像、图表等各类内容元素。当需要创建新的演示文稿时,系统通过其AI引擎,根据用户提供的指令(如prompt、每页指令、Markdown或键值对映射),自动识别并填充这些占位符,生成带有新鲜、相关内容的幻灯片。其API接口使得这一过程可被外部系统调用,实现演示文稿的自动化和批量生成,同时确保原始品牌风格和设计布局的完整性。应用场景
- 销售与市场: 快速生成销售推介、市场活动演示、产品介绍等幻灯片,以适应市场变化和客户需求。
- 企业内部沟通: 自动化制作季度业务回顾(QBRs)、内部培训材料、项目报告等。
- 教育与培训: 教师和培训师快速制作课程材料、教学演示文稿。
- 金融服务: 自动化生成财务报告、投资分析、客户演示等。
- 技术与研发: 简化技术方案演示、研究成果汇报等。
- 内容创作自动化: 为市场营销团队自动化生成受众特定的品牌传播和外联内容。
LandPPT – 开源AI PPT生成工具
LandPPT是一个开源的AI演示文稿生成平台,旨在通过人工智能技术,将文档内容快速、高效地转换为专业且高质量的PPT演示文稿,极大地简化了传统PPT制作流程。

核心功能
- 文档内容快速转换: 能够自动将用户提供的文档内容转化为演示文稿。
- 多AI模型支持: 集成并支持OpenAI、Claude、Gemini等多种主流AI模型,提供更灵活的生成能力。
- 模板与样式选择: 提供丰富的模板和样式选项,帮助用户创建符合需求的演示文稿。
- 智能化图像处理: 具备智能图像处理能力,优化演示文稿的视觉效果。
技术原理
LandPPT的核心技术基于大语言模型(LLM)。它利用LLM的强大文本理解和生成能力,解析输入的文档内容,并将其结构化、提炼成演示文稿的关键信息。通过集成不同的AI模型(如OpenAI、Claude、Gemini),平台能够根据内容生成相应的演示文稿结构、文本内容、甚至推荐图片和排版,实现自动化和智能化的PPT制作。此外,可能还结合了自然语言处理(NLP)、计算机视觉(CV)技术进行文档解析和图像优化。应用场景
- 商务演示: 快速制作产品介绍、市场分析、项目报告等商务PPT。
- 学术交流: 将研究论文、学术报告等内容快速转换为演示文稿,用于会议或讲座。
- 教育培训: 教师或培训师可利用其将教学大纲、课程内容等转换为PPT课件。
- 个人汇报: 适用于个人工作总结、技能展示等快速生成演示文稿。
- 内容创作: 帮助内容创作者将文章、博客等转换为视觉化的演示材料。
- GitHub仓库:https://github.com/sligter/LandPPT
2.AI爬虫
0.RSShub
简介
DIYgod的RSSHub,包含其文档说明,还有关于知乎热榜的具体内容。同时展示了cooderl的wewe - rss项目,这是一种更优雅的微信公众号订阅方式,支持多种功能及部署方式。核心功能
- RSSHub可提供多种信息源的订阅功能,通过特定路由获取如知乎热榜等内容。wewe - rss能实现微信公众号的优雅订阅,支持获取历史文章、自动定时更新、生成多种格式的RSS,具备标题过滤、手动更新等高级功能,还支持私有化部署。
技术原理
- RSSHub可能基于网络爬虫技术,通过解析网页结构和协议,按照设定的规则从各类网站提取信息并整理成RSS格式。wewe - rss基于微信读书接口获取公众号信息,利用相关编程语言如TypeScript进行开发,通过框架(如Nestjs等)构建后端服务,借助数据库(如MySQL、SQLite)存储数据,实现各项功能。
应用场景
- RSSHub适用于需要整合多种信息源,以RSS方式订阅获取动态内容的场景,如资讯聚合平台、内容创作者收集素材等。wewe - rss主要应用于微信公众号的订阅管理,方便用户以RSS方式接收公众号文章更新,适用于微信公众号读者希望更高效管理阅读内容的场景。
- DIYgod/RSSHub: 🧡 Everything is RSSible
- RSSHub
- 🌟 热门 | RSSHub
- cooderl/wewe-rss: 🤗更优雅的微信公众号订阅方式,支持私有化部署、微信公众号RSS生成(基于微信读书)v2.x
------------------------------------------------------------
0.ScrapeGraphAI
简介
ScrapeGraphAI是一个基于Python的网络爬虫库,它利用大语言模型(LLM)和直接图逻辑,为网站和本地文档(如XML、HTML、JSON、Markdown等)创建爬虫管道,可根据用户提示提取信息。核心功能
- 提供多种标准爬虫管道,如
SmartScraperGraph可从单页提取信息,还有适用于多页、生成Python脚本或音频文件的管道。 - 支持与多种流行框架和工具无缝集成,涵盖Python、Node.js、LLM框架、无代码平台等。
- 可使用不同的LLM,包括通过API调用OpenAI、Groq、Azure和Gemini等,也可使用本地模型Ollama。
技术原理
利用LLM和直接图逻辑,通过配置不同的参数,如选择不同的LLM模型及其相关参数,结合特定的图结构来创建爬虫管道,以实现对网页或本地文档信息的提取。应用场景
- 数据探索:快速提取网站上的各种信息用于分析。
- 研究目的:为研究项目收集特定数据。
- ScrapeGraphAI/Scrapegraph-ai: Python scraper based on AI
- ScrapeGraphAI/Scrapegraph-LabLabAI-Hackathon: Code for the streamlit demo of Scrapegraph-ai for GPT4-hackaton
- ScrapeGraphAI/scrapegraphai-ai-copilot
- ScrapeGraphAI:开源的大语言模型爬虫,说出需求,一言即爬!-今日头条
- ScrapeGraphAI/Scrapegraph-ai: Python scraper based on AI
------------------------------------------------------------
1.Firecrawl
简介
Firecrawl是一款可将网站内容转换为LLM就绪格式数据的API服务,具有多种强大功能,支持多语言SDK,提供免费和付费计划,有开源和托管版本。核心功能
- 从网站抓取数据并转化为LLM可用格式,如markdown、结构化数据、截图、HTML等。
- 具备爬取、映射、搜索、提取等功能,可处理动态内容。
- 支持多语言SDK,方便集成到不同项目。
技术原理
利用先进的网络爬虫技术,结合动态内容处理、代理管理、反bot机制等,实现高效稳定的数据抓取。通过与多种工具和框架集成,方便用户调用和定制。应用场景
- 为AI聊天机器人提供实时准确的网页内容。
- 丰富销售数据,提升线索质量。
- 助力代码编辑器实现强大的网页数据抓取功能。
- 支持用户构建基于网页数据的AI应用。
- 为深度研究提供全面的信息提取。
- Firecrawl
- Home - Firecrawl
- mendableai/firecrawl: 🔥 Turn entire websites into LLM-ready markdown or structured data. Scrape, crawl and extract with a single API.
- Firecrawl手册
1.## 1.fireplexity-AI爬虫+问答
简介
- 主要围绕Fireplexity展开,涉及GitHub项目仓库、工具网站及相关博客文章。介绍了Fireplexity是由Firecrawl网络抓取API驱动的快速AI搜索引擎,具备实时网络搜索、AI响应、来源引用、实时股票数据、智能跟进等功能,还说明了其技术栈、快速开始步骤、部署方式及相关资源等。
核心功能
- Fireplexity是一个由Firecrawl网络抓取API驱动的AI搜索引擎,可提供智能答案,具有实时网络搜索、AI响应、来源引用、实时股票数据、智能跟进等功能。
技术原理
- 基于Firecrawl的网络抓取API实现实时网络搜索,利用OpenAI的GPT-4o-mini生成AI响应,借助Vercel AI SDK进行流处理,通过TradingView获取股票图表数据等,共同构建了Fireplexity的功能体系。
应用场景
- 可用于获取各种实时信息和智能答案,如实时网络资讯、股票数据等场景,为用户提供快速准确的信息检索与分析服务。
- fireplexity-github
- demo
- 官网
易采集/EasySpider
简介
EasySpider(易采集)是一款可视化、无代码/低代码的网络爬虫及浏览器自动化测试软件。它旨在帮助用户无需编写代码,通过图形化界面即可设计和执行网页数据采集和浏览器自动化任务。该软件完全免费,支持个人及商业使用,并允许二次开发,其相关技术已被Web Conference (WWW) 2023接受并发表论文。核心功能
- 可视化任务设计: 用户通过直观的图形界面,在网页上直接选择目标内容并根据提示进行操作,即可完成爬虫任务的设计。
- 无代码数据采集: 实现零代码或少量代码进行网页数据抓取,支持复杂网页结构的解析和数据提取。
- 浏览器自动化测试: 提供浏览器自动化功能,可用于模拟用户行为进行测试,如点击、输入、页面导航等。
- 跨平台兼容性: 具备跨平台特性,能够适应不同的Web资源和操作系统环境。
- 高级配置与扩展: 支持高级配置以处理复杂任务,并提供扩展能力。
技术原理
EasySpider的核心技术原理在于构建了一个无代码的可视化系统来实现网页抓取和浏览器自动化。它通过以下方式实现:- 图形化用户界面 (GUI) 驱动: 抽象了底层的网页操作和数据解析逻辑,用户通过拖拽、点击等图形化操作来定义工作流程和数据提取规则。
- 基于浏览器自动化框架: 推测其内部可能集成了如Selenium、Puppeteer等浏览器自动化工具,通过模拟真实浏览器行为(如加载页面、点击元素、填写表单等)来绕过常见的反爬机制,并获取动态加载的内容。
- DOM解析与XPath/CSS选择器: 在用户选择目标元素时,系统自动或辅助生成对应的XPath或CSS选择器,用于精准定位和提取网页结构化数据。
- 任务编排与流程控制: 提供流程图式的任务编排功能,支持循环、条件判断、异常处理等逻辑,实现复杂的数据采集工作流。
应用场景
- 市场调研与竞品分析: 自动收集电商平台、新闻网站等的数据,用于价格监测、产品趋势分析等。
- 科研数据收集: 从学术网站、专利数据库等批量获取文献信息、研究数据。
- 内容聚合与个性化推荐: 定期抓取特定主题内容,构建个人内容库或为推荐系统提供数据源。
- 自动化测试与质量保障: 用于对Web应用进行功能测试、回归测试,模拟用户行为验证系统稳定性。
- 企业数据化运营: 辅助企业进行内部系统数据迁移、报告自动化生成等。
- 教学与入门: 作为学习网络爬虫和浏览器自动化的低门槛工具,帮助初学者快速上手。
- EasySpider-github
- EasySpider-website
- EasySpider-acm
2.chatexcel
简介
ChatExcel,可通过聊天AI处理Excel和数据分析,提供多种功能;向表答AI,能实现数据采集、分析及可视化等自动化处理。核心功能
- ChatExcel:支持聊天处理Excel与数据分析,含格式转换、函数替代、数据可视化等。
- 表答AI:通过自然语言驱动网页采集和表格数据分析,可用于电商选品、民宿运营等。
技术原理
- ChatExcel:利用先进的自然语言处理技术理解用户需求,结合专业的表格处理算法实现各项功能。
- 表答AI:借助自然语言处理、机器学习算法等,自动解析目标并生成可视化图表与洞见。
应用场景
- ChatExcel:办公场景下的Excel操作、数据处理与分析等。
- 表答AI:电商选品分析、民宿运营优化、自媒体内容趋势把握等。
- ChatExcel AI Excel处理和数据分析
- 表答 AI
shortcut
简介
Shortcut 是一款超人级别的AI Excel代理工具,旨在通过人工智能技术提升用户在Microsoft Excel中的数据处理、分析和操作效率。核心功能
- 智能数据处理与分析:利用AI能力,实现Excel数据的自动化清洗、整理、转换和分析。
- 复杂公式生成与优化:根据用户自然语言指令,智能生成或优化Excel中的复杂函数和公式。
- 任务自动化:自动化执行重复性高、耗时的Excel操作,提高工作效率。
- 洞察提取:从大量数据中快速识别模式、趋势和关键信息,辅助决策。
技术原理
Shortcut 的核心技术原理可能基于大语言模型(LLM)和机器学习(ML)算法。LLM用于理解用户的自然语言指令,将其转化为Excel可执行的操作或公式;机器学习技术则可能用于数据模式识别、预测分析和智能推荐。此外,它应通过API集成或宏编程等方式与Microsoft Excel深度交互,实现对工作簿、工作表、单元格数据的读取、写入和操作。应用场景
- 财务分析与建模:快速构建财务报表、预算模型、进行成本效益分析等。
- 市场数据分析:处理销售数据、客户信息、市场趋势等,生成报告和洞察。
- 商业智能与报告:辅助企业用户从Excel数据中提取商业价值,生成各类业务报告。
- 学术研究与数据整理:帮助研究人员高效处理实验数据,进行统计分析。
- 个人效率提升:适用于任何需要频繁处理Excel数据,寻求提高效率的个人或团队。
- shortcut
------------------------------------------------------------
2.chatpdf-doc
------------------------------------------------------------
ChatFiles
简介
ChatFiles是一个基于LangchainJS构建的项目,与Chatbot-ui相关。它允许用户上传文件并与之进行对话,具备与GPT-3.5聊天以及通过Supabase向量数据库与文件聊天的功能。核心功能
- 支持用户上传文件并进行对话。
- 可与GPT-3.5进行聊天交互。
- 借助Supabase向量数据库实现与文件的聊天功能。
技术原理
基于LangchainJS构建,利用Supabase向量数据库来处理与文件相关的交互,实现对上传文件的理解和基于文件内容的对话。应用场景
- 日常文件内容交流场景,方便用户快速获取文件关键信息并交流。
- 知识问答场景,针对特定文件内容进行精准提问和解答 。
- guangzhengli/ChatFiles: Document Chatbot — multiple files. Powered by GPT / Embedding.
------------------------------------------------------------
DocsGPT
简介
DocsGPT是一个开源的生成式人工智能工具,能帮助用户从任何知识源获取可靠答案,避免幻觉,具备多种强大功能特性及明确的路线图,还为公司提供生产支持,介绍了快速启动方式、贡献方式及项目架构等内容。核心功能
- 支持多种格式文件读取,可从多种来源整合数据。
- 提供可靠无幻觉答案并显示来源引用。
- 简化API密钥管理,具备可操作工具及预建集成。
- 能与多种大语言模型及本地模型灵活部署,运行安全可扩展。
技术原理
暂未提及明确技术原理相关内容。应用场景
- 知识问答:帮助用户快速准确获取各种知识源的可靠答案。
- 企业部署:可在企业环境中安全可靠地运行,助力企业信息检索与利用。
- arc53/DocsGPT:由 GPT 提供支持的文档聊天,与您的文档聊天
------------------------------------------------------------
图表生成
简介
- VChart:VisActor可视化体系中的图表组件库,基于VGrammar和VRender封装,具有一码多端、面向叙事、场景沉淀等核心能力,仓库包含多个相关包及文档示例代码。
- VMind:基于大模型的图表智能组件,具备对话式图表智能生成与编辑能力,特点是易于使用、性能极致、表现力强、安全合规,还给出了开发指南、使用说明等内容。
核心功能
- VChart:提供多端适配的图表展示功能,支持多种图表类型,可通过简单配置生成图表,并具备增强的叙事可视化创作能力。
- VMind:通过自然语言交互创建和编辑图表叙事作品,支持多种大模型,具备图表智能生成、数据聚合、智能洞察等功能。
技术原理
- VChart:基于可视化语法库VGrammar进行图表逻辑封装,基于可视化渲染引擎VRender进行组件封装,实现多端适配和丰富的图表功能。
- VMind:利用大模型提供自然语言交互接口,通过对用户输入的理解和处理,调用相应的模型和算法实现图表智能生成、数据聚合及智能洞察等功能。
应用场景
- VChart:适用于需要进行数据可视化展示的各种场景,如桌面应用、H5页面、小程序等,可用于商业智能、数据分析、报表展示等。
- VMind:在需要快速创建和编辑图表叙事作品的场景中优势明显,如数据新闻报道、商业演示、数据分析报告等,帮助用户高效完成可视化创作。
- VChart/README.zh-CN.md at develop · VisActor/VChart
- VMind/readme-zh.md at develop · VisActor/VMind
Kronos – 金融K线图基础模型
Kronos是由清华大学与微软亚洲研究院联合开源的首个面向金融市场的K线图基础模型。它专注于分析股票、加密货币等金融资产的K线数据,通过学习历史市场规律来预测未来价格走势。该模型旨在解决现有时间序列基础模型在金融K线数据应用中表现不佳的问题,并支持波动率预测和合成数据生成等关键任务。
核心功能
- 金融 K 线数据预测: 核心功能是分析 K 线数据(开盘价、最高价、最低价、收盘价及成交量),预测股票、加密货币等资产的未来价格走势。
- 量化交易策略支持: 为量化交易策略的开发提供市场趋势预测,优化交易信号的生成。
- 市场情绪与风险管理分析: 通过解读 K 线图反映市场情绪变化,并利用预测能力协助评估和控制投资风险。
- 金融数据研究工具: 为金融研究人员提供强大工具,探索金融市场规律、价格形成机制及市场效率。
技术原理
Kronos采用两阶段处理框架:- 智能分词器(Intelligent Tokenizer): 将连续的金融 K 线数据转化为离散的“金融词汇”,为后续模型处理提供结构化输入,提取关键信息。
- 基于 Transformer 架构的预测大模型: 利用 Transformer 架构处理长序列数据,捕捉时间序列中长期依赖关系,从而更准确地预测未来价格走势。
- 多数据源与预训练: 模型训练数据覆盖全球45+交易所,具备较强的泛化能力。提供多种预训练模型,用户可根据具体任务进行微调,以适应特定金融市场数据和预测需求。
- 时间序列建模: 专注于处理金融数据的高波动性和噪声,从中提取有价值的预测信息。
- Github仓库:https://github.com/shiyu-coder/Kronos
- arXiv技术论文:https://arxiv.org/pdf/2508.02739
CWM – Meta代码世界模型
CWM(Code World Model)是由Meta(Facebook Research)开发并发布的一个320亿参数的开源大型语言模型(LLM),旨在推动结合世界模型的代码生成研究。它通过“代码世界建模”实现代理式编码,使得AI能够像人类工程师一样进行代码推理、调试、修补和扩展。
核心功能
CWM的核心功能包括:- 智能代码生成:生成高质量、符合逻辑的代码。
- 代码推理与理解:深入理解代码逻辑,支持复杂的代码分析。
- 自动化调试:识别并修复代码中的错误。
- 软件修补与扩展:对现有软件进行改进和功能添加。
- 代理式编码:使AI能够执行多步骤的软件开发任务。
- 开放权重模型:提供预训练、SFT(监督微调)和指令微调的模型权重,以及技术报告和推理代码,便于研究人员使用和复现。
技术原理
CWM作为320亿参数的LLM,其技术原理主要体现在其独特的训练阶段和“世界模型”概念:- 通用预训练阶段:模型在8万亿(8T)个token上进行预训练,其中30%为代码数据,其余为STEM(科学、技术、工程、数学)和文本数据,具备8k的上下文长度,奠定了广泛的编程和推理基础。
- 世界建模中训练阶段:在5万亿(5T)个token上进行进一步训练,并显著扩展了上下文长度至131k。此阶段是实现“代码世界模型”的关键,模型通过模拟代码运行环境和预测代码行为,形成对代码世界的内在表征和理解,从而能够对程序执行结果进行推理。
- 长上下文处理:支持131k的超长上下文窗口,使其能够有效处理大型代码库和多文件调试场景。
- 开放权重:允许社区对模型进行深入研究、定制和二次开发。
- GitHub仓库:https://github.com/facebookresearch/cwm
- HuggingFace模型库:https://huggingface.co/facebook/cwm
- 技术论文:https://ai.meta.com/research/publications/cwm-an-open-weights-llm-for-research-on-code-generation-with-world-models/
Neovate Code – 蚂蚁AI编程
Neovate Code是一个开源的代码代理(Code Agent),旨在通过智能辅助提升开发者的编程效率和体验。该项目将代码库开放至GitHub,允许社区共同参与和改进,致力于成为一款强大的AI编程助手。
核心功能
- 智能编程辅助: 作为代码代理,为开发者提供代码生成、补全、重构等智能辅助功能。
- 可定制化代理: 允许用户创建和配置自己的代码代理,以适应特定的开发需求和工作流程。
- 插件扩展机制: 支持通过插件来扩展其功能和集成其他工具或服务。
- 多提供商支持: 通过配置环境变量(如
OPENAIAPIBASE)支持集成不同的AI模型服务提供商。
技术原理
Neovate Code的核心技术原理是基于大型语言模型(LLM)的能力,实现对代码的理解、生成与交互。它作为一个代码代理框架,通过以下方式运作:- 自然语言处理与代码理解: 利用LLM强大的自然语言理解能力解析开发者的意图和代码上下文。
- API集成: 通过标准化接口(例如与OpenAI兼容的API)与各种AI模型服务进行通信,获取智能回复或代码建议。
- 模块化架构: 其开源设计和对插件的支持,表明它采用模块化架构,便于功能扩展和集成第三方工具。
- 环境配置: 允许通过环境变量动态配置后端服务,提供了灵活的部署和使用方式。
应用场景
- 软件开发: 协助开发者快速编写代码、进行代码审查、优化代码结构,大幅提升开发效率。
- 编程教学与学习: 为初学者提供实时代码建议和示例,加速学习过程。
- 自动化脚本与工具开发: 帮助开发者构建自动化脚本或内部工具,减少重复性工作。
- 个性化开发工作流: 开发者可根据项目特性或个人偏好,定制专属的代码代理,以满足特定场景的需求。
- 项目官网:https://neovateai.dev/
- GitHub仓库:https://github.com/neovateai/neovate-code
------------------------------------------------------------




