测试文档(产品帮助文档专用)

知识库

知识库构建是知识问答实现精准知识服务的核心环节,其体系化设计直接决定知识的可用性、安全性与检索效率。

1. 新建知识库 

【知识库】页面点击【新建知识库】,弹出弹框,填写标题必填项,在描述框输入描述,以下参数按需配置。

注意:知识库功能需要使用Embedding模型,且有可能使用Rerank模型,这两类模型请联系系统管理员在智能体引擎中配置,详情请参见智问部署文档。

描述:详细描述可以让LLM更快地访问知识库的内容。

自动同步文件:开启后,文档上传后会自动同步给智能体引擎作为知识被检索。自动同步文件默认开启。

检索设置:默认Rerank模型(权重设置和Rerank模型二选一);

权重设置:通过调整分配的权重,重新排序策略确定是优先进行语义匹配还是关键字匹配。

Rerank模型:重排序模型将根据候选文档列表与用户问题语义匹配度进行重新排序,从而改进语义排序结果。

TOP K:用于筛选与用户问题相以度最高的文本片段。K值越小,生成的结果越集中,可能更符合常见的语言结构;K值越大,生成的结果可能更加多样,但也可能包含些不太合适的词。

相似度阈值:Score國值,用于设置文本片段筛选的相似度值,默认值为0.5,只有超过该分数的文本片段才会被召回,数值越高,预期召回的文本数量越少。

最后,点击【确定】,知识库新建完成。

知识库的相关按钮操作:

创建完成的知识库如下图。

点击“查看”按钮,查看该知识库的情况。

点击“编辑”按钮,可以重新编辑知识库。

点击“删除”按钮,将会在知识库管理页面删除该知识库。

1.1. 上传文件

在已创建的知识库页面点击“上传文件”,上传需要的文件,弹出上传文件页面

文件接入类型默认为本地文档,点击“上传文件”按钮,弹出本地文档选择文件,文件重复选默认的新建,后续有新的修订文件可以选择“覆盖”,描述、文件负责人按需填写即可。

(1)分段设置

支持“通用”和“父子分段”两种方式,本章节主要讲解两种方式的具体含义。

1、通用模式

通用模式,系统按照用户自定义的规则将内容拆分为独立的分段。

当用户输入问题后,系统自动分析问题中的关键词,并计算关键词与知识库中各内容分段的相关度。根据相关度排序,选取最相关的内容分段并发送给 LLM,辅助其处理与更有效地回答。

2、父子分段

父子分段采用双层分段结构来平衡检索的精确度和上下文信息,让精准匹配与全面的上下文信息二者兼得。

其中,父区块(Parent-chunk)保持较大的文本单位(如段落),提供丰富的上下文信息;子区块(Child-chunk)则是较小的文本单位(如句子),用于精确检索。系统首先通过子区块进行精确检索以确保相关性,然后获取对应的父区块来补充上下文信息,从而在生成响应时既保证准确性又能提供完整的背景信息。 用户输入的问题将定位至解决方案文档内某个具体的句子,随后将该句子所在的段落或章节,联同发送至 LLM,补全该问题的完整背景信息,给出更加精准的回答。

父块用作上下文:

段落

根据预设的分隔符规则和最大块长度将文本拆分为段落。每个段落视为父分段,适用于文本量较大,内容清晰且段落相对独立的文档。支持以下设置项:

分段标识符:默认值为 \n\n,即文本按照此标识符分段。

分段最大长度:指定分段内的文本字符数最大上限,超出该长度时将强制分段。默认值为 1024字符,分段长度的最大上限来自配置的大模型约 4000 字符;

全文

不进行段落分段,而是直接将全文视为单一父分段。

出于性能原因,仅保留文本内的前 10000 字符,适用于文本量较小,但段落间互有关联,需要完整检索全文的场景。

章节分段

按照文章的章节分块,适用于规章制度、手册类有章节的文件。

分段方式支持“叶子章节分段”和“章节合并分段”。

叶子章节分段是按层级最小叶子章节开始分段,如果叶子章节3.1.1的内容超过了设置的分段最大长度,则在允许的长度内,分成多段,但是最后一段的内容,不会混到3.1.2的分段里,3.1.1分成多段。

章节合并分段中,支持设置分段层级和最大分段长度。

分段层级:某个文档最大有5层级,设置分段层级为3,则将四级标题和五级标题内容分段到一起,1级标题、2级标题、3级标题无论下面是否有正文内容,会被合并到一个新的完整的分段中。

分段最大长度:最大分段长度设置时需要校验是否超过模型的长度限制要求。如果合并的分段内容在分段时超出了长度,则分多段,但是不会和下一个层级的分段内容切到一起;

子块用于检索:

子分段文本是在父文本分段基础上,由分隔符规则切分而成,用于查找和匹配与问题关键词最相关和直接的信息。如果使用默认的子分段规则,通常呈现以下分段效果(注:父分段为段落或者全文时,才需配置对应子分段):

Ø 当父分段为段落时,子分段对应各个段落中的单个句子。

Ø 父分段为全文时,子分段对应全文中各个单独的句子。

子分段支持以下分段设置:

分段标识符:默认值为\n,即按照句子进行分段。

分段最大长度:指定分段内的文本字符数最大上限,超出该长度时将强制分段。默认值为512字符,分段长度的最大上限来自配置的大模型约 4000 字符;

我们还可以使用文本预处理规则过滤知识库内部分无意义的内容:

Ø 替换连续的空格、换行符和制表符

Ø 删除所有 URL 和电子邮件地址

2. 密级

密级可分层管理数据,确保高敏感度信息仅限授权人员访问,防止数据泄露,保障企业知识资产安全有序流转与合规使用。

密级的开启与使用可参考《密级管理》

【新建知识库】弹框中密级一栏可以按照需求设置该知识库的密级

知识库的“密级”设置为“普商”,则其下的文档的“密级”不能设置比“普商”高的密级。

3. 新建分组

为方便文档分类,知识库里设置分组功能将文档区分。

点击“新建分组”,弹出弹框,建立分组管理文件。

4. 删除文件

选中文件夹或文件,点击“删除”,将文件在知识库里删除

操作栏“删除”按钮与该功能效果相同

5. 元数据

元数据是关于描述数据的数据,即关于数据的内容、质量、状况和其他特性的信息。也可译为描述数据或诠释数据,提供了相应数据的上下文环境的描述信息;元数据是业务数据中心、数据仓库和数据分析等大型应用的基础设施。

点击“元数据”,弹出弹框,点击“新建”,新建元数据用于描述文件中的数据。

在编排型助手里面,对知识检索节点进行设置,控制知识库文档检索范围

元数据绑定

元数据绑定能精准定位知识,通过绑定的元数据快速筛选出符合用户需求的内容提升检索效率与准确性。选中文件,点击“元数据绑定”,弹出弹框,输入元数据进行绑定。

6. 预览

点击“预览”按钮可以跳转到文件预览页面,可以按需“添加分段”、“添加子分段”,也可以勾选对应分段“禁用/启用”或者删除。

一般还是建议标准文档处理好后上传直接使用。

7. 下载

通过点击右侧“...”,选择“下载”或者上面“下载”按钮可以下载对应文件。

8. 禁用/启用文件

通过“禁用/启用”按钮修改文件状态,“已禁用”状态的文件,大模型回答问题的时候不会检索。

9. 同步文件

知识库创建时关闭了“自动同步文件”的配置,会在“查看页面”多【同步文件】菜单按钮和【同步】按钮。

上传成功的“待同步”文件可以通过选择序号前的勾选框,再点击菜单栏的“同步文件”按钮同步对应文件给智能体引擎作为知识被检索,或者直接点击“同步”按钮同步文件。

同步中的“文件状态”变成“索引中”,文件同步完成后变成“可用状态”。

这里使用的是管理员权限的用户,可以直接点击“同步”,普通用户需要参考下图,赋予对应知识库“同步文件”的权限。

状态说明:

待同步:知识库创建时关闭了“自动同步文件”,上传文件后该文件没有同步,此时文件不能同步给智能体引擎作为知识被检索。

索引中:上传文件进行同步给智能体引擎作为知识,但还没有同步完成。

可用:上传文件同步完成,可以给智能体引擎作为知识被检索出来。

已禁用:智能体检索时禁止检索该文件。

附件列表

0

文档内容仅供参考
如果您需要解决具体问题,还可以登录亿信社区
在提问求助板块提问,30分钟内帮您解决问题

如果您认为本词条还有待完善,请编辑

上一篇智能体广场

下一篇了解数据分析@

请先登录