2.1 知识库 1 2 3 4 企业私有的专业知识库,包含各种类型的数据,是问答对话中回答用户问题的知识来源。 MaxKB 知识库分为通用型知识库和 Web 站点知识库两种类型。 通用型知识库:对离线文档上传管理,支持的文档类型为 Markdown、TXT 、PDF、DOCX 类型的文本数据。 Web 站点知识库:用于获取在线静态文本数据管理,输入 Web 根地址后自动同步根地址及子级地址的文本数据。
1 点击【知识库】菜单,进入知识库列表页面,该页面支持知识库创建、编辑、同步、删除、查询等功能。
2.1.1 创建通用型知识库 1 2 打开【知识库】页面,点击【创建知识库】,进入创建知识库页面。 输入知识库名称、知识库描述、选择通用型知识库类型。 然后将离线文档通过拖拽方式或选择文件上传方式进行上传。
1 2 3 4 5 6 7 8 9 上传文档要求: 支持的格式为Markdown、TXT、PDF、DOCX; 每次最多上传 50 个文件; 每个文件不超过 100 MB; 支持选择文件夹,上传文件夹下符合要求的文件。 文档规范建议: 1、规范分段标识:离线文档的分段标识要有一定规范,否则拆分出来的段落会不规整。 2、段落要完整:一个分段中最好能描述一个完整的功能点或问题。
智能分段
1 2 3 4 5 6 7 8 9 10 11 12 13 MarkDown 类型的文件分段规则为:根据标题逐级下钻式分段(最多支持 6 级标题),每段的字符数最大为 4096 个字符; 当最后一级的文本段落字符数超过设置的分段长度时,会查找分段长度以内的回车进行截取。 DOC 类型的分段规则为:识别标题格式转换成markdown的标题样式,逐级下钻进行分段(最多支持 6 级标题)每段的字符数最大为 4096 个字符; TXT和 PDF 类型的文件分段规则为:按照标题# 进行分段,若没有#标题的责按照字符数4096 个字符进行分段,会查找分段长度以内的回车进行截取。 ``` 
不同知识库类型的文档属性不同,功能不同,但最终的分段数据会统一一致。
点击通用型知识库面板,进入通用型知识库的【文档】页面。 在文档列表页面新文档上传、快速创建空白文档、文档重命名、删除、启用/禁用等操作。当文档禁用后,当用户提问时不会对该文档下的分段内容进行查询。
1 2 3  - **上传文档**
点击【上传文档】进入上传文档页面,通过文件拖拽或选择文件上传方式进行上传文档。
1 
点击下一步进入【设置分段规则】,可以对上传文档选择分段规则,默认为智能分段。分段规则变更后需要点击【生成预览】,分段预览中将按照最新规则进行分段展示。
1 
点击【开始导入】后,系统会对文档进行自动分段 -> 存储 -> 向量化处理操作。
1 2 3 4 5 - **命中处理方式设置** ``` 支持设置文档的命中处理方式。 直接返回:指提问时命中该文档下面的分段后,会直接返回分段内容。(注意:分段标题不返回)建议分段内容比较精准的使用该方式。 模型优化:指提问时命中该文档下面的分段后,会按照应用的提示词生成 prompt 发送给模型优化后返回答案。
2.1.5.2 Web 站点知识库文档 1 在知识库列表点击【知识库面板】,进入Web站点知识库的【文档】页面。
导入文档
1 支持单独导入在线文档,点击【导入文档】打开对话框,需要用户输入文档链接和选择器,支持同时导入多个文档,输入文档地址时一行一个。
同步知识库
1 2 3 支持对Web站点知识库进行同步更新操作,同步方式分为替换同步和完全同步。 替换同步:重新获取 Web站点文档,替换本地知识库中地址相同的文档。 整体同步:先删除本地知识库中所有文档,重新获取 Web站点下的文档数据。
启用/禁用
1 文档禁用后,当用户提问时不会系统不会检索该文档下的分段内容,只有启用后系统才会检索。
同步文档
1 支持对文档进行单独同步和批量同步操作,同步时会先删除当前文档下的所有分段,重新获取文档地址的文本数据。
文档设置
1 2 3 4 支持对文档的地址和选择器进行修改操作。 支持设置文档的命中处理方式。 直接返回:指提问时命中该文档下面的分段后,会直接返回分段内容。(注意:分段标题不返回)建议分段内容比较精准的使用该方式。 模型优化:指提问时命中该文档下面的分段后,会按照应用的提示词生成 prompt 发送给模型优化后返回答案。
文档删除
2.1.6 分段管理 1 2 3 导入文档后,系统会进行智能分段操作,点击文档列表中的文档记录,进入到文档的分段管理页面。 分段管理功能支持对添加、编辑、删除、启用/禁用分段以及为分段添加关联问题。 说明: 分段禁用后,当用户提问时不会匹配禁用的分段。
添加分段
1 2 点击【添加分段】,弹出添加分段对话框,用户需填写分段标题、分段内容(支持 markdown 样式编辑分段内容。)和关联问题,点击【提交】后则新增一个分段。 建议:为了能准确匹配到分段,建议为分段设置关联问题。(当用户提问时系统会优先匹配关联问题,再映射到分段。)
编辑分段
1 点击【分段面板】,打开分段详情,在分段详情页面可以对分段进行编辑和关联问题操作。
删除分段
2.1.7 问题 1 2 3 支持问题管理,维护知识库的用户可以收集用户可能提出的相关问题添加到问题库中进行维护。并将问题关联文档中的知识点,提高问答的准确度。 问题按知识库进行分类管理,当前知识库的问题仅能关联当前知识库中的分段内容。 问题不可重复添加。
2.1.7.1 创建问题 1 用户可以快速创建单个问题,也可以批量创建多个问题。
2.1.7.2 问题关联分段 1 问题添加完成后,可以关联文档中的分段,当用户提问时会优先匹配问题库来查询相关的分段。
2.1.7.3 问题详情 1 点击问题记录可以打开问题详情,查看问题关联的分段内容,支持对分段内容进行修改或取消关联关系。
2.1.8 命中测试 1 2 3 命中测试功能是针对用户提问进行一个模拟测试,用来调整分段内容和关联问题从而提高分段内容的匹配度,提高回答效果。 点击命中测试,输入用户测试问题,系统在当前知识库中按照检索模式检索相关的分段,并按照相似度返回Top K 分段。 用户可以根据返回分段对分段进行编辑或添加关联问题。
2.1.8.1 参数设置 1 2 3 4 5 6 当前支持向量检索、全文检索和混合检索 3 种检索模式。 向量检索:使用向量模型通过向量距离计算与用户问题最相似的文本分段。 全文检索:通过关键词检索,返回包含关键词最多的文本分段。 混合检索:同时执行全文检索和向量检索,再进行重排序,从两类查询结果中选择匹配用户问题的最佳结果。 相似度:相似度越高代表问题和分段的相关性越强。 返回分段数 top : 返回符合条件的 Top N 个分段。