跳到主要内容

文档切分核心原则

有效的文档切分应遵循以下四大核心原则,以确保切分结果既保持语义完整性又满足检索需求。

语义完整性原则

核心思想:切分应尽量不破坏语义单元的完整性,避免在句子或段落中间进行不合理的分割。

  • 句子边界优先:优先在自然语言句子结束处(如句号、问号、感叹号)进行分割
  • 段落边界考虑:在段落分隔符处进行分割,保持段落的完整性
  • 主题连贯性:切分点应选择在主题转换处,避免将不同主题的内容混合在一个块中

例如,一段关于 AI 的文本可以这样切分:

  • 块 1:"人工智能的核心技术包括机器学习和深度学习。"
  • 块 2:"这两者都属于监督学习的范畴。"

每个块都保留了完整的语义信息,不会出现半句话被截断的情况。

长度控制原则

核心思想:控制每个文本块的长度,使其适应模型的上下文限制和检索需求。

注意平衡

过大的块会增加检索噪声,过小的块会丢失上下文,需根据文档类型选择合适的长度范围。

推荐 Token 范围如下:

文档类型推荐 Token 范围
一般文档300-800 tokens
技术文档400-600 tokens
对话记录200-400 tokens

同时需确保块大小不超过所用模型的输入限制(如 DeepSeek-R1 为 128K tokens)。

重叠率原则

重叠率示意图

核心思想:在相邻文本块之间设置适当的重叠区域,避免重要信息在边界处丢失。

  • 上下文连续性:重叠区域确保跨边界的语义连续性
  • 信息完整性:防止关键信息因切分而被分割到不同块中
  • 重叠大小优化:通常设置为块大小的 10-20%,根据具体应用场景调整

特殊格式策略原则

核心思想:针对特殊格式的文档(如代码、表格、列表)采用专门的切分策略。

  • 代码块完整性:保持函数、类等代码单元的完整性,不在代码逻辑中间切分
  • 表格结构保持:尽量保持表格的完整性,避免将表头与数据行分割
  • 列表项完整:保持列表项的完整性,避免将单个列表项拆分到不同块中
原则总结

四大原则并非孤立存在,而是相互配合:语义完整性是首要原则,决定切分点的位置;长度控制约束每个块的大小范围;重叠率弥补切分带来的上下文断裂;特殊格式策略则针对非纯文本内容提供专用处理方案。实际应用中,应优先保证语义完整性,再在此基础上调整长度和重叠参数。