文档切分
本章节系统介绍 RAG 项目中文档切分的完整流程,从数据预处理到切分工具实战,再到策略选择与效果评估。
目录
- 数据清洗与预处理 - 切分前的五类数据清洗方法
- 文档切分概述 - 切分重要性、粒度影响与评估指标
- LlamaIndex 核心对象:Document 与 Node - Document/Node 概念、元数据传播与关系结构
- 文档切分核心原则 - 语义完整性、长度控制、重叠率与特殊格式策略
- Text-Splitters 文本分割器实战 - TokenTextSplitter、SentenceSplitter、CodeSplitter
- Node Parsers 节点解析器实战 - MarkdownNodeParser、语义切分、句子窗口、层次化切分与混合策略
- 切分策略选择与效果评估 - 工具选型、参数调优与 LlamaIndex 评估器