原文:https://mp.weixin.qq.com/s/0V9R33AYXPjbgcO-OkBsNg
Klavis AI:突破工具集成极限,4 种方式让 AI 无缝对接多服务!
klavis 是一个实现MCP集成层的AI工具。简单讲,它让AI代理能稳定使用成千上万种工具。适用人群:AI开发者、自动化工具构建者
项目地址:https://github.com/Klavis-AI/klavis
主要语言:Python
stars: 4.9k
Klavis AI 提供了让 AI 代理在任何规模下可靠使用工具的 MCP 集成层,主要有以下两个核心解决方案:
- Strata:作为统一的 MCP 路由器,是一个单一的 MCP 服务器,可让 AI 代理在任何规模下可靠地使用工具。它具备可扩展的工具集成能力,能突破 40 - 50 个工具的限制;还能进行渐进式发现,逐步引导代理从意图到行动。
- MCP 集成:拥有 50 多个生产 MCP 服务器,支持企业 OAuth,可将 AI 连接到 GitHub、Gmail、Slack、Salesforce 等服务。采用真正的 OAuth 认证,而非仅依赖 API 密钥,并且支持 Docker,可实现一键部署。
优势
- 可扩展性:Strata 能突破工具数量限制,满足大规模工具使用的需求。
- 渐进式引导:帮助 AI 代理从意图到行动逐步推进,提高使用工具的可靠性。
- 丰富的集成:50 多个 MCP 服务器涵盖了众多主流服务,方便 AI 与各种平台连接。
- 安全认证:使用真正的 OAuth 认证,保障数据安全。
- 便捷部署:支持 Docker 部署,简化部署流程。
应用场景
- 自动化办公:AI 代理可通过 Klavis AI 集成的各种办公工具,如 Gmail、Slack 等,实现自动化的邮件处理、消息沟通等任务。
- 数据分析:连接到 Salesforce 等数据平台,让 AI 代理获取和分析数据,为决策提供支持。
- 软件开发:在 Claude Code、Cursor、VSCode 等开发环境中使用 Strata 或单个 MCP 服务器,提高开发效率。
快速启动方式
- 开源方式:可在自己的基础设施上进行自托管,通过 Docker 拉取并运行 MCP 集成,同时在本地安装开源的 Strata。
- WebUI 托管服务:无需任何设置,只需注册账号,按照快速入门指南操作,即可在相关开发环境中使用。
- SDK 方式:提供 Python 和 TypeScript SDK,可用于构建自定义应用程序。
- 直接 API 方式:使用 REST API,适用于任何编程语言。
1.2B参数逆袭!MinerU2.5成最牛文档解析多模态大模型
MinerU 是一个将复杂文档(如PDF)转换为适合大语言模型使用的Markdown/JSON格式的工具。简单讲,它能把难以处理的PDF文件变成AI容易理解的结构化文本。适用人群:需要处理文档数据的开发者、AI应用工程师、研究人员。
项目地址:https://github.com/opendatalab/MinerU
主要语言:Python
stars: 46.1k
MinerU是一个将PDF转换为机器可读格式(如Markdown、JSON)的工具,便于将内容提取为任意格式。该工具诞生于InternLM的预训练过程,专注于解决科学文献中的符号转换问题,为大模型时代的技术发展贡献力量。
核心功能
- 去除干扰信息:去除页眉、页脚、脚注和页码等,确保语义连贯。
- 按阅读顺序输出:以人类可读的顺序输出文本,适用于单栏、多栏和复杂布局。
- 保留文档结构:保留原始文档的结构,包括标题、段落、列表等。
- 提取元素:提取图像、图像描述、表格、表格标题和脚注。
- 公式和表格转换:自动识别文档中的公式并转换为LaTeX格式,自动识别表格并转换为HTML格式。
- OCR功能:自动检测扫描PDF和乱码PDF并启用OCR功能,支持检测和识别84种语言。
- 多格式输出:支持多种输出格式,如多模态和NLP Markdown、按阅读顺序排序的JSON以及丰富的中间格式。
- 可视化结果:支持各种可视化结果,包括布局可视化和跨度可视化,便于确认输出质量。
- 多环境支持:支持在纯CPU环境中运行,也支持GPU(CUDA)/NPU(CANN)/MPS加速,兼容Windows、Linux和Mac平台。
快速开始
pip或uv安装MinerU
pip install --upgrade pip
pip install uv
uv pip install -U "mineru[core]"
源码安装MinerU
git clone https://github.com/opendatalab/MinerU.git
cd MinerU
uv pip install -e .[core]
在线体验
- 官方在线Web应用:功能与客户端相同,界面美观,功能丰富,但需要登录使用。
- https://mineru.net/OpenSourceTools/Extractor?source=github
- 基于Gradio的在线演示:基于Gradio开发的WebUI,界面简单,仅具备核心解析功能,无需登录。
- https://huggingface.co/spaces/opendatalab/MinerU
本地部署
安装前需注意,为确保项目的稳定性和可靠性,开发过程中仅针对特定的硬件和软件环境进行了优化和测试。不同解析后端对操作系统、CPU、GPU、内存、磁盘空间和Python版本有不同要求。安装方式有多种,可使用pip或uv安装,也可从源代码安装,还能通过Docker部署。使用时,最简单的命令行调用为mineru -p <input_path> -o <output_path>
,也可通过命令行、API和WebUI等多种方式进行PDF解析。
优势与应用场景
- 优势:开源免费,具有丰富的功能和良好的兼容性,不断更新迭代以提升性能和修复问题。
- 应用场景:适用于科研人员提取文献内容、数据处理人员进行文档数据转换、企业进行文档管理和信息提取等场景。