算丰 1684X-SOC TPU 处理器运行 chatglm3 知识库得到错误的答案,海口有几个机场 | Chatopera
处理器
算丰 1684X-SOC,国产 AI 芯片
知识库项目
验证过程
上传知识库文件
doc-sample-preprocessing.docx
其中文本内容为:
海口有海口美兰国际机场,位于海口市美兰区,航线飞往国内大中城市,也有飞往国际的专机。从海口去美兰国际机场,除了地铁快速到达外,有绕城高速直达,还有琼文高速和223国道,交通非常便利。海南有三个民用机场:海口美兰国际机场、三亚凤凰国际机场和琼海博鳌机场。
由上文可知 -
1)海口有一个机场:美兰国际机场
2)海南有三个机场:海口美兰国际机场、三亚凤凰国际机场和琼海博鳌机场
将该文件上传,生成知识库,然后进行提问:
该知识库生成的回答是错误的,将海口等同于海南,进行了回答。
正确的回答应该是:
海口有一个机场,海口美兰国际机场。
算法分析
这个错误的原因,在于 vector 中,海南和海口在语义上距离非常近,但实际上是两个概念,模型认为它们是一个概念。
RAG 中,召回放弃使用向量数据库,使用 Lucene 等形式,可以有效解决。这将让知识库检索语义理解能力变差,但是准确率会提升。
关于 Chatopera
Chatopera 云服务重新定义聊天机器人,https://bot.chatopera.com 定制智能客服、知识库、AI 助手、智慧家居等智能应用,释放创新潜力。