Skip to main content
增强索引是区别于传统chunk 的一种索引方式,可以理解为将chunk 拆分为多个chunk,然后对每个chunk 进行索引。

系统自动写入索引

可以在如下导入文档向量化时候,选择开启增强索引,其中包含了:
  1. 将标题加入索引:导入时自动将文档标题作为索引入口,提升通过标题关键词的召回率
  2. 自动生成补充索引:导入时使用 LLM 为每个分段自动生成可能的用户提问,作为索引入口
注意:开启增强索引后,每一个分段 Chunk 在向量化的同时会调用LLM 生成索引,可能会耗时较长。
image-20260319205107974

手工标注索引

在已经向量化后的分段数据中,可以手工添加索引,添加索引后,向量化后的数据会自动更新索引。 image-20260319205727053 如上存在三种索引:
  1. 原始索引:就是原始分段的文本原始内容
  2. 标题索引:LLM 根据该分段总结的文本
  3. QA 自动问答索引:LLM 根据该分段总结一些常见问题
  4. 自定义索引:人为标注索引

测试增强索引效果

假设有这个场景:第一个文本分段没有任何关于 langchat 这个关键词的信息,如果我们没有人为标注,输入 langchat 是不会检索到任何结果的。 但是我们可以人为标注这个分段数据,增加一个增强索引,那么在 RAG 检索的时候就会通过增强索引精确匹配到这个数据: image-20260319212604829 image-20260319212533639