17岁学生曾宪哲在失踪8天后被成功找到。香港消防处于搜寻过程中,采用了无人机和人工智能技术进行搜救。该技术将无人机拍下的影片转为照片,并藉由人工智能进行图像分析,有效地缩小搜索范畴并精确定位重要搜索地区,最终成功寻回曾宪哲,让人松一口气。
提及人工智能的图像分析,不得不提及于9月24日推出的GPT-4V(ision),它在OpenAI ChatGPT的iOS应用和网页界面中都有提供。此模型是OpenAI研发的多模态模型,能让使用者上传图片并提问,此功能被称作视觉问答(Visual Question Answering VQA)。GPT-4V展现了相当于人类水平的多项能力,例如视觉理解、视觉描述、多模式知识、常识推理等。将图像输入纳入大型语言模型(LLMs)被视为人工智能领域的一大突破,多模式LLMs不仅扩充了语言模型的能力,也带来了新的使用者体验。
图一及图二,是两个GPT-4V的图像理解实例:
GPT-4V分析表示:「Lululemon在线上市场活动和顾客互动方面展现出明显的领先优势,这显示了该品牌在线上和参与度上的成功。而Athleta在推广策略上有着高表现,这暗示着该品牌可能在市场活动和广告上投入了更多的资源和创意。另外,Alo Yoga在所有属性上的均衡表现,揭示了其采取的多元化策略。」 这样的结果实在让我对GPT-4V刮目相看。
然而,GPT-4V尽管拥有先进功能,但也有其不足。根据OpenAI的技术报告,GPT-4V偶尔会有错误的判断,例如误将图像的文本结合成一个不存在的术语。和基本的GPT-4相似,GPT-4V可能产生误判或误导性的资讯,或遗失重要文本、数学符号等。它在医学影像分析或识别危险物质方面也存在局限。这些限制点明了,虽然GPT-4V具有巨大潜力,但仍需改进以确保其准确性和安全性。
藉由此先进的视觉语言模型,开发者和研究者得以开发新的应用场景。例如,在网页设计、医学影像解读、视觉辅助技术以及教育指导中,GPT-4V的应用显示出其如何推动各行业的创新进程。这种技术在其他多个领域中都有潜在的开创性应用,可能为社会带来广泛的利益。随着技术的持续进步及应用的日益拓展,我们期望未来能看到更多令人惊艳的技术突破和创新解决方案