召回测试是验证 RAG 系统检索效果的重要工具,通过模拟查询测试检索精度,为参数调优提供数据支持。
基础概念
召回 (Recall) 在 RAG 中的含义
召回是信息检索的核心指标,在 RAG 系统中指:- 定义:系统能够检索到相关文档片段的能力
- 目标:最大化相关信息的检索覆盖度
- 影响:直接影响 AI 回答的准确性和完整性
RAG 系统架构
召回测试的意义
- 效果验证:评估检索算法的性能
- 参数调优:优化检索参数配置
- 质量监控:持续监控检索质量
- 问题诊断:定位检索问题根源
召回测试功能
功能入口
创建知识库并上传文档后,进入知识库详情页面,点击左侧「召回测试」:
测试参数配置
| 参数 | 说明 | 影响 | 推荐值 |
|---|---|---|---|
| 相似度阈值 | 最小相似度分数 | 控制检索精度 | 0.6-0.8 |
| 召回数量 | 返回结果数量 | 影响召回覆盖度 | 5-20 |
| 检索文本 | 测试查询内容 | 验证检索效果 | 多样化测试用例 |
召回检索原理
结果分析
召回测试结果包含:匹配分值
- 余弦相似度:文档向量与查询向量的相似度
- 分值范围:0.0 - 1.0
- 阈值过滤:低于阈值的文档被过滤
召回效果评估
| 评估维度 | 指标 | 说明 |
|---|---|---|
| 召回率 | 相关文档被检索的比例 | 越高越好 |
| 精确率 | 检索结果中相关文档的比例 | 平衡召回率 |
| 排序质量 | 相关文档的排序位置 | 位置越靠前越好 |
参数优化建议
相似度阈值调优
召回数量调优
- 数量过少:可能遗漏关键信息
- 数量适中:平衡召回效果和计算成本
- 数量过多:增加噪声,影响精度
最佳实践
测试用例设计
- 多样化查询:涵盖不同类型的用户问题
- 边界测试:测试极端情况下的检索效果
- 业务场景:模拟真实业务场景的查询
持续监控
- 定期测试:建立定期的召回测试机制
- 性能跟踪:监控检索性能的变化趋势
- 参数优化:根据测试结果调整参数配置
召回测试是 RAG 系统优化的重要环节,建议在系统上线前进行充分的测试验证。

