
大模型为何存在欺骗性?
大模型不会故意欺骗用户,但在某些情况下可能会出现误差或偏差,这可能是由于模型的训练数据不完整或不准确,或者模型在处理复杂问题时存在局限性,在使用大模型时,用户应保持警惕,对模型的输出进行验证和评估,以确保其准确性和可靠性,研究人员也在不断改进和优化大模型的算法,以提高其性能和准确性。
文|象先志
本文开始前,「象先志」先问大家三个问题,大家可以一起思考下
1. AI为什么要骗你?
2. 幻觉是大语言模型的bug还是feature?
3. 为什么AI总是一本正经地胡说八道?
OpenAI前段时间发了篇论文,题目叫 《Why language models hallucinate》,解释为什么大语言模型会产生幻觉。「象先志」会先介绍下论文内容,然后「象先志」再聊聊对这个问题一些不一样的看法。
稍微有点硬核,希望大家耐心看到最后。这篇论文的基本结论,是大模型产生幻觉,原因是开发人员在训练它的时候鼓励它这么做。就是说大模型天性是好的,是跟错了人,后面路才走歪的。
为什么这么说呢?在训练大模型的时候,厂商内部会跑很多的测试,来评价和校准大模型的好坏。这些测试只看准确率,不看错误率,所以哪怕模型不知道答案是什么,它还是会倾向猜一个答案。就跟我们考试的时候,哪怕不会做,答题卡上也要涂满是一个道理。
要解决这个问题,那就对症下药嘛,论文作者呼吁大家要改变评测基准,不要再搞那套基于准确率的评估方法了,要鼓励大模型承认自己的无知,而不是一本正经的瞎咧咧。
论文主要说的就是这事,「象先志」想逻辑大家应该很容易理解。坦白讲,虽然说论文是OpenAI发的,但「象先志」觉得没有什么新东西。当然OpenAI出来发有个好处,人家行业地位摆着这,出来吼两嗓子,有助于从业者更快地认识到问题,然后去针对性地解决。
聊完论文,「象先志」再聊下对模型幻觉问题的理解。「象先志」认为语言模型本质上没有幻觉不幻觉的概念,它们只是基于已有的信息,去预测下一个token。你训练数据里是什么样的概率分布,它就会尽量去拟合这个分布,仅此而已。不管你怎样去调整模型评估的方式方法,它其实仍然是在迎合新的评价指标。
比如说,原来答错不扣分,现在答错要扣分,那模型肯定更谨慎,不确定的事实,不知道的答案,它就更多承认自己不确定或者不知道。
但这样还是存在两个问题。
第一,模型仍然是没有事实和非事实的概念区分,它不是因为这个东西是幻觉,它才不输出;它是因为这个输出会扣分,它才不输出。
这就引出了第二个问题。按照这个理解角度,要减少模型的幻觉,就是要合理设置模型的评估模式,去尽可能引导模型的输出跟人类认知上的事实陈述重合。
这显然是一种治标不治本的方式,因为模型的输出结果跟人类认为的事实是两个语言集合,我们现在等于没办法,直接瞄准后面这个集合做优化,所以只能退而求其次,对前一个集合做间接的限制。
但这样搞有多大效果?上限在哪里?都是不知道的。
打个比方吧。人发烧是因为身体内的免疫系统在剧烈反应,这个反应是有一个根本的诱发因素的,比如说病毒感染。那现在要解决发烧的问题,一种办法是直接对病毒做处理,上一些抗病毒的药物,病毒解决了,身体自然就不发烧了。
还有一种办法是什么呢?就是把体温当做优化指标,用药物把免疫反应按下去,或者在头上敷冰块,反正要达到降体温的目的。
现在OpenAI提的解决方案就类似于后者。这个方法有没有用?当然有用,就像人如果一直发烧发高烧,脑子就烧坏掉了,先把体温降下来、缓解症状,是治疗步骤中必要的环节。
OpenAI新的GPT-5的确也比之前模型要好很多,幻觉症状有明显的缓解。但这能不能解决根本问题呢?我觉得很难,你最后还是需要找到发烧的原因才行。
只不过跟生病不一样,人发烧是有客观原因的,可能受限于医学发展程度医生找不到,但我们知道这个原因是客观存在的。而语言模型的幻觉问题有可能是与生俱来的,发烧就是它身体正常新陈代谢的一部分,你解决不了。没那个能力,知道吧?
顺便说一句 ,刚才「象先志」又被AI给骗了。「象先志」询问柯洁获得过几个世界冠军时,ChatGPT非常笃定地回答,"截止2025年9月,柯洁共获得9个世界冠军,还列出了是哪几次以及哪一年。"
本来以为是GPT语料被污染了,因为年初LG杯决赛时柯洁因不服裁判弃赛,随后把微博签名改为"九冠王"。但「象先志」定睛一看,发现情况并没有那么复杂,因为ChatGPT回答里并没有列出2025年的LG杯。
九冠的柯洁,只是它单纯的幻觉。
作者:访客本文地址:https://nbdnews.com/post/1689.html发布于 2025-09-23 16:34:53
文章转载或复制请以超链接形式并注明出处NBD财经网
还没有评论,来说两句吧...