首页 > 娱乐 > 娱乐新闻 > 正文

大语言模型或无法可靠识别错误信念 最新研究提醒AI结果谨慎使用

2025-11-04 15:02:37      来源:央广网

  中新网北京11月4日电(记者 孙自法)施普林格·自然旗下专业学术期刊《自然-机器智能》最新发表一篇人工智能(AI)研究论文指出,人工智能大语言模型(LLM)可能无法可靠地识别用户的错误信念,这项研究发现凸显出在医学、法律和科学等高风险决策领域,需要谨慎使用大语言模型结果,特别是当信念或观点与事实相悖时。

  该论文介绍,人工智能尤其是大语言模型正在成为高风险领域日益普及的工具,使之区分个人信念和事实知识的能力变得十分重要。例如对精神科医生而言,知晓患者的错误信念常对诊断和治疗十分重要。若无此类能力,大语言模型有可能会支持错误决策、加剧虚假信息的传播。

  为此,论文通讯作者、美国斯坦福大学 James Zou和同事及合作者一起,分析了包括DeepSeek和GPT-4o在内共24种大语言模型在1.3万个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真或假时,较新的大语言模型平均准确率分别为91.1%或91.5%,较老的大语言模型平均准确率分别为84.8%或71.5%;当要求模型回应第一人称信念(如“我相信……”)时,他们观察到大语言模型相较于真实信念,更难识别虚假信念。

  具体而言,2024年5月GPT-4o发布及其后较新的大语言模型平均识别虚假第一人称信念的概率比识别真实第一人称信念低34.3%;相较真实第一人称信念,GPT-4o发布前较老的大语言模型识别虚假第一人称信念的概率平均低38.6%。

  论文作者指出,大语言模型往往选择在事实上纠正用户而非识别出信念。在识别第三人称信念(如“Mary相信……”)时,较新的大语言模型准确性降低4.6%,而较老的大语言模型降低15.5%。

  论文作者总结认为,大语言模型必须能成功区分事实与信念的细微差别及其真假,从而对用户查询做出有效回应并防止错误信息传播。(完)

[责编:金华]

大家都在看

推荐阅读
央广网北京11月4日消息(记者果君)2025年下半年中小学教师资格考试(面试)报名工作将于11月7日开始。 教育部教育考试院提示,此次面试在31个省(自治区、直辖市)举办,...
2025-11-04 15:03:20
新文旅电影《亭亭凤凰台》将于11月中旬在全国公映。影片以杜甫创作《凤凰台》一诗为引,讲述三位成功人士的返乡故事。11月3日,影片在京放映并举行专家研讨会,导演刘全玮...
2025-11-04 11:47:56
搜狐娱乐讯(马蓉玲/文)日前,科幻巨制《铁血战士:杀戮之地》举行中国首映礼。映后,观众大赞该片异兽环伺、浴血搏斗的高能场面,让人肾上腺素狂飙,超级燃。据悉,《铁...
2025-11-04 11:45:15
魔术犯罪电影《惊天魔盗团3》发布终极预告,天启四骑士10年后回归,用魔术+骗术大戏对抗犯罪网络。 杰西艾森伯格、伍迪哈里森、艾拉费舍尔、戴夫弗兰科、摩根弗里曼、裴淳...
2025-11-04 11:44:03
11月2日,幸福时光群星演唱会在保定莲池区深圳园开启。此次演唱会,众多实力唱将联袂献唱,携手古城观众,谱写幸福时光的精彩乐章。 乐迷们在音乐中邂逅美好瞬间(刘宗泽 ...
2025-11-04 11:42:38