RAG 领域应用与学习资源
特定领域应用
金融领域:财报解析与问答
- 重点:表格提取精度
- 推荐工具:DoclingAI(表格提取精度 98%+)
- 策略:使用
hi_res策略进行高精度表格解析
医疗领域:文献分析与检索
- 重点:公式识别与专业术语处理
- 推荐工具:MinerU(数学公式识别精准)
- 策略:结合 OCR 与专业词典
法律领域:合同解析与条款提取
- 重点:文档结构还原与条款定位
- 策略:利用标题元素构建文档层次结构
- 元数据:页码、坐标信息用于精确定位
教育领域:教材内容分析与问答
- 重点:多模态内容处理(文字、图片、公式)
- 推荐工具:Marker(代码/公式支持优秀)
- 策略:使用
vlm策略处理复杂版面
学习资源与参考
官方资源
- Unstructured 官网:https://unstructured.io/
- Unstructured GitHub:https://github.com/Unstructured-IO/unstructured
- LlamaIndex 官方文档:https://docs.llamaindex.org.cn/en/stable/
- Tesseract OCR 官方文档:https://tesseract-ocr.github.io/
- pdf2image 文档 :https://pdf2image.readthedocs.io/
LlamaIndex 的更多功能
- 智能体(Agent)开发框架:https://docs.llamaindex.ai/en/stable/module_guides/deploying/agents/
- RAG 的评测:https://docs.llamaindex.ai/en/stable/module_guides/evaluating/
- 过程监控:https://docs.llamaindex.ai/en/stable/module_guides/observability/
此外,LlamaIndex 针对生产级的 RAG 系统中遇到的各个方面的细节问题,总结了很多高端技巧(Advanced Topics),对实战很有参考价值,非常推荐有能力的同学阅读。