研究人员开发了一种称为自然语言嵌入式程序(NLEPs)的技术,该技术通过生成Python程序来解决复杂任务,从而提高大型语言模型的性能。
这种方法不仅提高了准确性和效率,而且增加了透明度,因为用户可以直接看到和修改生成的代码。NLEP允许像GPT-4这样的大型模型以更高的精度解决更广泛的任务,并且可以潜在地改善数据隐私和小型模型的性能,而无需进行广泛的再培训。
提高大型语言模型的推理能力
大型语言模型(LLM),例如那些支持ChatGPT的语言模型,在起草法律摘要、分析客户评论的情绪或将文档翻译成不同的语言等任务上,表现出了令人印象深刻的性能。
这些机器学习模型通常只使用自然语言来处理信息和回答查询,这使得它们很难执行需要数字或符号推理的任务。
例如,一个大型语言模型可能能够记忆和背诵最近的美国总统及其生日的列表,但如果被问到“1950年之后当选的美国总统中有哪些是在星期三出生的?”时(答案是吉米·卡特),同样的模型可能会失败。
通过NLEP增强模型能力
麻省理工学院和其他地方的研究人员提出了一种新技术,使大型语言模型能够通过生成程序来解决自然语言、数学和数据分析以及符号推理任务。
他们的方法被称为自然语言嵌入式程序(NLEPs),包括提示语言模型创建并执行Python程序来解决用户的查询,然后将解决方案作为自然语言输出。
提高准确性和透明度
他们发现,NLEP使大型语言模型能够在广泛的推理任务中达到更高的准确性。该方法还具有通用性,这意味着一个NLEP提示符可以用于多个任务。
NLEP还提高了透明度,因为用户可以检查程序,看看模型是如何对查询进行推理的,如果模型给出了错误的答案,可以修复程序。
“我们希望人工智能能够以透明和值得信赖的方式进行复杂的推理。还有很长的路要走,但我们已经证明,将编程和自然语言的能力结合在大型语言模型中,是迈向未来的一个非常好的潜在的第一步,人们可以完全理解和信任他们的人工智能模型内部发生的事情,”麻省理工学院博士后、NLEP论文的共同主要作者罗红音(音译)博士说。
与罗教授一起撰写论文的还有香港中文大学研究生张天华(音译);北京大学本科生葛佳欣;Yoon Kim,麻省理工学院电气工程与计算机科学系助理教授,计算机科学与人工智能实验室(CSAIL)成员;资深作者James Glass,资深研究科学家,CSAIL口语系统小组负责人;以及其他。这项研究将在计算语言学协会北美分会年会上发表。
NLEP设计与运行机制
许多流行的大型语言模型都是通过预测给定一些自然语言输入的下一个单词或标记来工作的。虽然像GPT-4这样的模型可以用来编写程序,但它们将这些程序嵌入到自然语言中,这可能导致程序推理或结果出现错误。
对于NLEP,麻省理工学院的研究人员采取了相反的方法。它们提示模型完全用Python代码生成一个循序渐进的程序,然后将必要的自然语言嵌入到程序中。
NLEP是一个解决问题的模板,包含四个步骤。首先,模型调用必要的包或函数,它将需要解决任务。第二步涉及导入任务所需知识的自然语言表示(比如美国总统的生日列表)。对于第三步,模型实现一个计算答案的函数。最后一步,如果需要,模型会将结果输出为带有自动数据可视化的自然语言行。
“它就像一个数字计算器,只要程序是正确的,它总是给你正确的计算结果,”罗教授说。
用户可以很容易地调查程序并直接修复代码中的任何错误,而不需要重新运行整个模型来排除故障。
这种方法也比其他方法提供了更高的效率。如果用户有许多类似的问题,他们可以生成一个核心程序,然后替换某些变量,而无需重复运行模型。
为了促使模型生成NLEP,研究人员给了它一个编写Python程序的总体指令,提供了两个NLEP示例(一个带有数学,一个带有自然语言),以及一个测试问题。