OpenAI公布大模型新训练方法：阻止ChatGPT“一本正经地胡说八道” -

　　新浪科技讯北京时间6月1日早间消息，据报道，当地时间周三，OpenAI公司通过论文介绍了一种全新的方法，来训练生成式人工智能语言模型。

　　OpenAI这一研究成果来得很是时候，最近，随着生成式人工智能技术流行，以及美国2024年总统大选初步启动，人工智能“胡说八道”的问题引发了史无前例的关注和讨论。

　　去年，OpenAI公司推出了人工智能对话撰稿工具ChatGPT，背后依托于GPT3和GPT4语言模型。ChatGPT的优秀表现在全世界掀起了生成式人工智能的一股风暴，两个月之内，相关服务的月度活跃用户超过了一亿人，用户增长速度创造了新的世界纪录。

　　OpenAI背后的大股东之一是微软(328.13, -0.26, -0.08%)，微软已经累计对该公司投资130亿美元。目前，OpenAI的市值大约为290亿美元。

　　人工智能“胡说八道”，术语上也被称为“AI幻觉”。面对用户的提问，ChatGPT以及谷歌(124.4101, 1.04, 0.84%)的Bard等工具会杜撰出一些虚假信息，看上去像是权威正确的答案。

　　比如，今年2月谷歌针对Bard工具推出了一个演示视频，视频中Bard有关美国韦伯太空望远镜的描述就存在错误。此外，美国纽约的几位律师最近使用ChatGPT撰写法律文件，ChatGPT描述了完全虚构的案例，这些律师将面临处罚。

　　OpenAI公司的研究人员表示，即使是最先进的人工智能模型也会杜撰虚假信息，尤其是在拿不准的时候，它们往往倾向于编造事实。

　　研究人员表示，在要求多步骤推理的领域，人工智能胡编的后果尤为严重，因为一个单一的逻辑错误会导致整个解决方案“翻车”。

　　OpenAI准备采用新战略，防止人工智能胡编。比如在过去，一旦提供一个正确的最终答案，模型会获得某种鼓励，但是以后，在每一个单一的逻辑推理环节如果表现正确，就将获得鼓励反馈。这种模式也被称之为“过程监督”（以往的模式术语“结果监督”）。

　　研究人员表示，“过程监督”模式有助于产生更加清晰合理的回答，它将会鼓励生成式人工智能能够像人类一样，在推理思考中做到“环环相扣”。

　　OpenAI公司“随机生成数学”研究专家卡尔·柯比（Karl Cobbe）表示，发现并且减少人工智能模型的逻辑错误，也就是“AI幻觉”，是构建“通用人工智能”的关键一步。另外，“过程监督”模式并非OpenAI公司发明，但是该公司正在加以推广普及。

　　柯比表示，新方法的目的，是解决人工智能胡编问题，从而让语言模型能够解决更加复杂的推理难题。

　　这位专家介绍，OpenAI已经发布了一个研究使用的数据集，包括80万条人工标签，可用上述新模式训练语言模型。

　　不过，美国电子隐私信息中心的资深律师本·魏特斯（Ben Winters）对这种新的训练模式表示质疑，他希望亲自查看OpenAI的完整数据集，以及相关的例子。

　　魏特斯表示，目前生成式人工智能还处于野蛮生长时代，OpenAI的新模式还无法实质性缓解AI胡编乱造错误答案的问题。

　　这位律师表示，最重要的是，OpenAI是否会将一些研究论文成果部署到实际产品中，如果没有这样的计划，这将会引发社会质疑，即他们到底要向公众发布怎样的最终产品。

　　美国布朗大学的学者维克塔（Suresh Venkatasubramanian）表示，目前还不清楚OpenAI的研究论文是否经过了同行评议，他认为这一研究还仅仅停留在“初步观察”阶段。

　　维克塔表示，在做出某种确定性结论之前，研究论文还需要在学术圈子内进行更多传播。他认为，如今，人工智能领域每天都会有很多研究成果，但是“大型语言模型”在工作时存在不稳定性，因此在某种条件、背景或者模式下的运行结果，可能无法应用于另外一种条件、背景或模式。

　　维克塔认为，在人工智能胡编的问题中，包括了语言模型胡编一些他人引言或者参考信息。OpenAI的新论文并没有证据能解决这一问题。

　　OpenAI专家柯比表示，未来将会在学术会议上把论文交给其他人，进行同行评议。对于何时将会把研究成果和“过程监督”整合到ChatGPT等最终产品中，OpenAI尚未发表官方评论。

　　美国人工智能研究专家萨拉·迈尔斯·韦斯特（Sarah Myers West）表示，人工智能公司开始解决虚假答案问题，这是一个好消息，但OpenAI目前的论文还停留在“公司内部研究”的阶段，还需要攻克更多难关。

　　韦斯特表示,在论文中，OpenAI发布一个“人类级反馈”的小规模数据集，但是并没有训练GPT4模型所用数据的更多介绍。虽然生成式人工智能已经开始改变普通人的工作生活，但是距离“负责任的人工智能应用”，还存在相当多的技术挑战。