当前位置: 首页 > news >正文

Github上文本切分相关的优秀项目

Github上有几个不错的文本切分相关的优秀项目,涵盖了不同技术方向和应用场景:

  1. AntSK-FileChunk

    • 特点:基于语义理解的智能文本切片工具,支持PDF、Word、纯文本等多种格式,通过语义分析和向量计算确保切片的语义完整性和连贯性。
    • GitHub地址https://github.com/xuzeyu91/antsk-filechunk
  2. LangExtract

    • 特点:谷歌开源的文本处理库,支持长文档智能分块、并行处理和多轮提取,结合LLM实现结构化信息提取,适用于医疗、法律、科研等领域的文本处理。
    • GitHub地址https://github.com/google/langextract
  3. Chonkie

    • 特点:为RAG任务设计的轻量级文本分块库,采用Tiktoken和预计算缓存技术,性能高效,适用于大规模文本处理。
    • GitHub地址https://github.com/chonkie-inc/chonkie 
  4. Late Chunking

    • 特点:基于长上下文Embedding模型的后置分块策略,通过全局信息编码和平均池化保留上下文连贯性,适用于长文档处理。
    • GitHub地址https://github.com/jina-ai/late-chunking
  5. LangChain Text Splitters

    • 特点:LangChain框架中的文本切分工具,包括RecursiveCharacterTextSplitter等,支持基于规则、NLP库(如NLTK、Spacy)的切分,适用于结构化和非结构化文本。
    • GitHub地址https://github.com/hwch/langchain

这些项目在语义切分、性能优化、多格式支持等方面各有优势,可根据具体需求选择。

http://www.hskmm.com/?act=detail&tid=32681

相关文章:

  • 微信机器人开发
  • 微信社群机器人开发
  • 《程序员修炼之道:从小工到专家》第三章读后感
  • 原型链污染学习
  • 重新认识 Golang 中的 json 编解码
  • (二)CUDA在Windows系统上的编译运行方法
  • 关于价值原语与AI元人文构想的对话全记录——DeepSeek研究
  • 关于价值原语与AI元人文构想的对话全记录
  • 升鲜宝生鲜配送供应链管理系统,辅助开发工具,《多语言自动翻译与导出工具(WinForms版)》开发文档 及 阿里云机器翻译,数据库Mysql .net 全部源代码
  • MySQL学习
  • 植物大战僵尸全系列下载 PVZ植物大战僵尸全集版分享下载 原版民间修改版含安卓手机+电脑+ios各平台
  • 10.17
  • Pytorch66页实验题
  • Excel学习
  • 记一次激活Jetbrains全家桶流程
  • uni-app x开发商城系统,商品列表
  • PySimpleGUI 中有没有类似VB的timer组件
  • 【填坑】电脑用户名有中文字符,如何与github建立SSH连接
  • 数据采集第一次作业
  • 向量空间与子空间
  • 西工大开源 Easy Turn:全双工轮次转换检测模型;百度 MuseSteamer 引入开放世界生成能力丨日报
  • 10/16
  • 2025.10.16总结
  • 日常生活中的AI应用记录-2
  • containerd二进制安装
  • 维修笔记 | 一例滤波电容老化引发开关电源异常现象
  • (一)GPU与CUDA概述
  • 实验1 面向对象程序设计C++
  • 练习篇:第一次markdown成果展示
  • 微软已停止对 Windows 10 系统的支持