增强索引是区别于传统chunk 的一种索引方式,可以理解为将chunk 拆分为多个chunk,然后对每个chunk 进行索引。
系统自动写入索引
可以在如下导入文档向量化时候,选择开启增强索引,其中包含了:- 将标题加入索引:导入时自动将文档标题作为索引入口,提升通过标题关键词的召回率
- 自动生成补充索引:导入时使用 LLM 为每个分段自动生成可能的用户提问,作为索引入口
手工标注索引
在已经向量化后的分段数据中,可以手工添加索引,添加索引后,向量化后的数据会自动更新索引。
如上存在三种索引:
- 原始索引:就是原始分段的文本原始内容
- 标题索引:LLM 根据该分段总结的文本
- QA 自动问答索引:LLM 根据该分段总结一些常见问题
- 自定义索引:人为标注索引
测试增强索引效果
假设有这个场景:第一个文本分段没有任何关于langchat 这个关键词的信息,如果我们没有人为标注,输入 langchat 是不会检索到任何结果的。
但是我们可以人为标注这个分段数据,增加一个增强索引,那么在 RAG 检索的时候就会通过增强索引精确匹配到这个数据:


