Skip to main content
文档管理是知识库运维的核心功能,涵盖文档状态监控、操作管理、文本段维护等关键环节,确保知识库数据的完整性和可用性。

文档列表

文档上传成功后,在知识库详情页面可查看完整的文档列表: image-20250926084313384

文档状态

状态描述图标标识可执行操作
未训练文档已上传至 OSS,但未完成向量化或向量化失败⚠️查看文本段、重新训练、删除
已训练文档完成向量化,可用于检索所有操作
文档状态反映了向量化处理的完成情况,已训练状态的文档才能被 RAG 系统检索使用。

文档详情查看

点击文档可查看详细的分段信息: image-20250926090603283 数据存储说明
  • 文本段数据:存储在 MySQL 数据库中
  • 向量数据:存储在向量数据库中
  • 原始文件:存储在 OSS 对象存储中

文档操作

文档列表页面提供完整的文档管理功能:

基础操作

操作功能说明
刷新刷新文档列表同步最新的文档状态
新建/导入上传文件或创建文件夹支持多种文档格式
下载源文件下载原始文档从 OSS 下载原始文件
移动文件组织文档结构将文件移动到指定文件夹
删除文件删除文档及数据删除文档和所有关联数据

文件组织结构

默认情况下,上传的文件存储在根目录。可通过文件夹功能组织文档结构: image-20250926091354541 组织建议
  • 按业务模块分类
  • 按文档类型分组
  • 按更新时间排序
  • 便于检索和管理

文本段操作

文本段是知识库检索的最小单位,支持细粒度的管理和控制。

全局操作

添加分段

支持手动添加自定义文本段,绕过自动分段流程: image-20250926091702090 使用场景
  • 补充重要信息
  • 修正分段错误
  • 添加结构化数据
  • 优化检索效果

文档启用控制

控制文档是否参与 RAG 检索:
状态检索行为适用场景
启用正常参与检索生产环境使用
禁用忽略所有文本段测试、维护、归档
禁用文档会影响检索覆盖度,请谨慎操作。建议在测试环境验证后再在生产环境禁用。

重新向量化

执行完整的重新处理流程: image-20250926092110956 触发场景
  • 分段参数调整
  • Embedding 模型升级
  • 文档内容更新
  • 检索效果优化
处理流程
  1. 删除现有文本段数据
  2. 删除现有向量数据
  3. 重新执行文档解析
  4. 重新生成向量表示
  5. 重新构建检索索引

删除文档

完全删除文档及其所有关联数据:
  • MySQL 数据:文本段记录
  • 向量数据:向量表示
  • OSS 文件:原始文档
  • 索引数据:检索索引
删除操作不可逆,请确认后再执行。

文本段操作

展开/收起视图

右上角提供展开/收起功能,优化长文档的浏览体验: image-20250926092358529 视图模式
  • 收起模式:每个卡片显示 2 行内容,节省空间
  • 展开模式:显示完整文本段内容,便于详细查看

文本段操作

鼠标悬停在文本段卡片上,显示操作按钮: image-20250926092837976
操作功能影响范围
启用/禁用控制文本段参与检索仅影响当前文本段
修改编辑文本内容并重新向量化更新向量表示
删除删除文本段及向量数据从检索中移除

操作影响分析

文本段级别的操作提供了精细化的检索控制能力,可根据实际需求调整检索策略。