Abstract:
针对大语言模型(LLM)会产生幻觉,难以完全应用到现实生活各个领域(尤其是医疗领域),以及没有高质量的LLM幻觉评估数据集及相应的LLM幻觉程度评估的问题,提出在医疗问答领域中的LLM幻觉识别与优化方法.首先,根据公开数据集Huatuo,结合GPT-4生成问题答案和人工标注的形式构建医疗问答领域LLM幻觉评估数据集;其次,基于所构建的幻觉评估数据集,定义"幻觉率"的概念,通过设计prompt让待测模型回答"是"或"否"的方式测试和量化各个LLM的幻觉程度,并发现LLM的"YES MAN"幻觉现象;再次,采用低幻觉率的大模型GPT-4作为LeaderAI来提供先验知识辅助高幻觉率LLM进行判断;最后,为探究多个不同LLM是否会在同一个问题上犯错,定义"幻觉碰撞"的概念,并基于概率统计方法揭示不同LLM在医疗问答领域的幻觉碰撞情况.实验结果表明,引入LeaderAI的方法可以提升高幻觉率LLM的表现,使LLM能够以低幻觉率应对医疗问答领域的"YES MAN"幻觉现象,并且目前的LLM同时在一个问题上出现幻觉(发生碰撞)的概率较低.
Keyword:
Reprint Author's Address:
Email:
Source :
计算机应用
ISSN: 1001-9081
Year: 2025
Issue: 3
Volume: 45
Page: 709-714
Cited Count:
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count:
Chinese Cited Count:
30 Days PV: 12
Affiliated Colleges: