文档管理是知识库运维的核心功能,涵盖文档状态监控、操作管理、文本段维护等关键环节,确保知识库数据的完整性和可用性。
文档列表
文档上传成功后,在知识库详情页面可查看完整的文档列表:
文档状态
| 状态 | 描述 | 图标标识 | 可执行操作 |
|---|---|---|---|
| 未训练 | 文档已上传至 OSS,但未完成向量化或向量化失败 | ⚠️ | 查看文本段、重新训练、删除 |
| 已训练 | 文档完成向量化,可用于检索 | ✅ | 所有操作 |
文档状态反映了向量化处理的完成情况,已训练状态的文档才能被 RAG 系统检索使用。
文档详情查看
点击文档可查看详细的分段信息:
数据存储说明:
- 文本段数据:存储在 MySQL 数据库中
- 向量数据:存储在向量数据库中
- 原始文件:存储在 OSS 对象存储中
文档操作
文档列表页面提供完整的文档管理功能:基础操作
| 操作 | 功能 | 说明 |
|---|---|---|
| 刷新 | 刷新文档列表 | 同步最新的文档状态 |
| 新建/导入 | 上传文件或创建文件夹 | 支持多种文档格式 |
| 下载源文件 | 下载原始文档 | 从 OSS 下载原始文件 |
| 移动文件 | 组织文档结构 | 将文件移动到指定文件夹 |
| 删除文件 | 删除文档及数据 | 删除文档和所有关联数据 |
文件组织结构
默认情况下,上传的文件存储在根目录。可通过文件夹功能组织文档结构:
组织建议:
- 按业务模块分类
- 按文档类型分组
- 按更新时间排序
- 便于检索和管理
文本段操作
文本段是知识库检索的最小单位,支持细粒度的管理和控制。全局操作
添加分段
支持手动添加自定义文本段,绕过自动分段流程:
使用场景:
- 补充重要信息
- 修正分段错误
- 添加结构化数据
- 优化检索效果
文档启用控制
控制文档是否参与 RAG 检索:| 状态 | 检索行为 | 适用场景 |
|---|---|---|
| 启用 | 正常参与检索 | 生产环境使用 |
| 禁用 | 忽略所有文本段 | 测试、维护、归档 |
重新向量化
执行完整的重新处理流程:
触发场景:
- 分段参数调整
- Embedding 模型升级
- 文档内容更新
- 检索效果优化
- 删除现有文本段数据
- 删除现有向量数据
- 重新执行文档解析
- 重新生成向量表示
- 重新构建检索索引
删除文档
完全删除文档及其所有关联数据:- MySQL 数据:文本段记录
- 向量数据:向量表示
- OSS 文件:原始文档
- 索引数据:检索索引
文本段操作
展开/收起视图
右上角提供展开/收起功能,优化长文档的浏览体验:
视图模式:
- 收起模式:每个卡片显示 2 行内容,节省空间
- 展开模式:显示完整文本段内容,便于详细查看
文本段操作
鼠标悬停在文本段卡片上,显示操作按钮:
| 操作 | 功能 | 影响范围 |
|---|---|---|
| 启用/禁用 | 控制文本段参与检索 | 仅影响当前文本段 |
| 修改 | 编辑文本内容并重新向量化 | 更新向量表示 |
| 删除 | 删除文本段及向量数据 | 从检索中移除 |
操作影响分析
文本段级别的操作提供了精细化的检索控制能力,可根据实际需求调整检索策略。

