人工智能工具正在帮助科研人员快速整合和理解大量科学文献,但完全自动化的高质量文献综述生成仍面临挑战,虽然能提升研究效率,但也存在生成低质量综述的风险,需谨慎使用,所以说现阶段还是人眼看论文靠谱。
网络的普及,加上文献数量的爆炸式增长,如今的科研人员要面临的一个主要难题就是,尽管可能已经收集了足够的数据来帮助理解某个复杂的领域或系统,但由于信息量的巨大,人类无法全面地阅读和理解所有文献。
就像是面对一个巨大的图书馆,虽然每本书都包含了宝贵的知识,但没有人能够阅读所有的书籍并从中获得一个完整的认知。
因此,尽管科学的进步为我们提供了大量的数据,但如何有效地整合和理解这些数据仍然是一个亟待解决的问题。
最近Nature上有一篇专栏文章,介绍了一些现有的、文献综述自动化生成的方法,并指出了这类方法主要面临的困境及用户痛点。
文章链接:https://www.nature.com/articles/d41586-024-03676-9
尽管身处ChatGPT时代,但想要完全没有人类参与,让AI「一键」完成系统性综述生成,集查询、整理、文献筛选、总结归纳等于一身,并且没有幻觉错误,仍然是一项不可能完成的任务。
用AI做文献综述
几十年来,研究人员们一直在尝试提升「将大量相关研究汇编成综述」的速度,由于工作量过大,很多综述在提交的时候往往就已经过时了。
ChatGPT等大模型展现出的超强语言理解能力,也再次激发了人们对于自动化综述的兴趣,今年9月, 美国初创公司FutureHouse构建了一个新系统,宣称能够在几分钟内生成一个比维基百科更准确的科学知识综合页面,并且已经为大约17,000个人类基因(human gene)生成了维基百科风格的条目,其中大部分在此前缺乏详细的描述介绍。
一些科学文献搜索引擎也已经开始引入AI驱动能力,来帮助用户通过查找、排序和总结出版物来制作叙述性文献综述,但目前质量普遍比较低。
大多数研究人员都认可,离实现自动化「金标准综述」还有很长的路要走,整个过程涉及严格的程序来搜索和评估论文,还包括元分析来合成结果,或许10年、甚至100年后才能略有进展。
计算机辅助评审
几十年来,计算机软件一直在辅助研究人员搜索和解析研究文献。
早在大型语言模型(LLMs)出现之前,科学家们就开始使用机器学习和其他算法来帮助识别特定研究,或快速从论文中提取发现,但类似ChatGPT这样的大模型让自动综述的能力显著提升。
不过,研究人员表示,要求ChatGPT或其他AI聊天机器人从头开始撰写学术文献综述,是相当不现实的。
如果模型被要求对某个主题的研究进行综述,LLM可能会从一些可信的学术研究、不准确的博客中,或是其他未知的信息来源中整合信息,而不会对最相关、最高质量的文献进行权衡。
LLMs的运行机制,即通过反复生成对查询在统计上合理的单词,决定了模型对同一个问题会生成不同的答案,并「幻想」出一些错误信息,比如众所周知的「不存在」的学术引用,和人类进行综述的过程可以说是毫无相似之处。
一个更复杂的过程是检索增强生成(RAG),包括将预先选定的论文语料库上传到LLM,并要求模型从中提取关键点,并基于这些研究给出答案,可以在一定程度上减少幻觉现象,但无法完全消灭幻觉。
RAG的过程中,还可以设置信息来源,类似Consensus和Elicit等专门的、AI驱动的科学搜索引擎就是这样做的,虽然大多数公司没有透露系统工作的确切细节,但大体上就是将用户的问题转化为对学术数据库(如Semantic Scholar和PubMed)的搜索,并返回最相关的结果。
基于搜索结果,大型语言模型(LLM)会总结这些研究,并将其综合成一个「带引用来源」的答案,用户可以根据具体需要选择要引用的工作。
丹麦南部大学奥登塞分校的博士后研究员Mushtaq Bilal认为,这些工具肯定能让提升综述和写作的效率,并且还自己开发了一个工具Research Kick。
至少搜索引擎引用的内容是绝对真实存在的,用户可以进一步点击查看,自己分辨。
不同的辅助工具有不同的特点,例如Scite系统可以快速生成支持或反驳某个主张的论文的详细分解,Elicit等系统可以从论文的不同部分提取间接(方法、结论等)。
大多数AI科学搜索引擎不能全自动地生成准确的文献综述,其输出更像是「一个本科生通宵达旦,然后总结出几篇论文的主要观点」,所以研究人员最好使用这些工具来优化综述过程中的部分环节。
但这种工具还有一些缺点,例如只能搜索开放获取的论文和摘要,而非文章的全文,Elicit搜索约1.25亿篇论文,Consensus包含超过2亿篇。
大部分研究文献都处于付费墙后,而且搜索大量全文计算量很大,让AI应用运行数百万篇文章的全部文本将需要很多时间,计算成本也会非常高。
系统性综述仍然很难
叙述性地总结文献已经非常难了,如果想把相关工作系统性地综述更是难上加难,一个专业的研究人员也需要花费数月甚至数年才能完成。
根据Glasziou团队的分析,系统综述包括至少25个仔细的步骤,在梳理文献后,研究人员必须从长列表中筛选出最相关的论文,然后提取数据,过滤出可能存在偏见的研究,并综合结果。
这些步骤通常还需要另一位研究人员进行重复,以检查不一致性。
在ChatGPT出现之前,Glasziou开始尝试创造科学界的世界纪录:在两周内完成一篇系统综述。
Glasziou和其他几位同事,包括Marshall和Thomas,已经开发了计算机工具来提高效率,当时可用的软件包括RobotSearch,能够快速从一系列研究中识别出随机试验;RobotReviewer可以帮助评估研究是否存在因为未充分盲化而产生偏见的风险。
第一次尝试最终总共用了九个工作日;后来团队又将该记录缩短到了五天。
这个过程还能变得更快吗?
Elicit是一家专注于帮助研究人员进行系统综述而不仅仅是叙述性综述的公司,但该工具并不提供一键式系统综述,而是自动化其中某些步骤,包括筛选论文和提取数据等。
大多数使用Elicit进行系统综述的研究人员都会上传使用其他搜索引擎找到的相关论文,但用户普遍担心这类工具可能无法满足研究的两个基本标准:透明度和可复制性。
如果不理解具体的算法,那就不算是系统综述,而只是一篇简单的综述文章。
今年早些时候,Glasziou团队成员Clark领导了一项系统综述,研究了使用生成式AI工具辅助系统综述的研究,最终团队只找到了15项已发表的研究,并将AI的性能与人进行充分对比。
这些尚未发表或同行评审的结果表明,这些AI系统可以从上传的研究中提取一些数据,并评估临床试验的偏差风险。
现有的模型在阅读和评估论文方面似乎做得还不错,但在所有其他任务上表现得非常糟糕,包括设计和进行完善彻底的文献搜索。
潜在风险
自动化信息合成也伴随着风险。
研究人员多年来就知道许多系统评价存在冗余或质量差等问题,而人工智能可能会使这些问题变得更糟;作者可能会有意或无意地使用人工智能工具来快速完成不遵循严格程序或包含低质量工作的评审,并得到误导性的结果。
除了综述别人的工作外,Glasziou表示,这类模型还可以促使研究人员快速检查以前发表的文献,找出其中的错误,来继续提高研究人员的水平。
甚至在未来,人工智能工具可以通过寻找P-hacking等明显迹象来帮助标记和过滤掉质量较差的论文。
Glasziou将这种情况视为一种平衡:人工智能工具可以帮助科学家做出高质量的评审,但也可能会让部分研究者快速生成不合格的论文,目前还不知道会对出版的文献产生什么影响。
有些研究者认为,合成和理解世界知识的能力不应仅仅掌握在不透明的营利性公司手中,希望未来可以看到非营利组织构建并仔细测试人工智能工具,小心谨慎地,尽可能保证每次提供的答案都是正确的。