AI / 科技 · 2023-10-28

数据科普｜OpenAI的新巨作：GPT-4V在图像理解的突破

数据科普｜OpenAI的新巨作：GPT-4V在图像理解的突破

17岁学生曾宪哲在失踪8天后被成功找到。香港消防处于搜寻过程中，采用了无人机和人工智能技术进行搜救。该技术将无人机拍下的影片转为照片，并藉由人工智能进行图像分析，有效地缩小搜索范畴并精确定位重要搜索地区，最终成功寻回曾宪哲，让人松一口气。

提及人工智能的图像分析，不得不提及于9月24日推出的GPT-4V（ision），它在OpenAI ChatGPT的iOS应用和网页界面中都有提供。此模型是OpenAI研发的多模态模型，能让使用者上传图片并提问，此功能被称作视觉问答（Visual Question Answering VQA）。GPT-4V展现了相当于人类水平的多项能力，例如视觉理解、视觉描述、多模式知识、常识推理等。将图像输入纳入大型语言模型（LLMs）被视为人工智能领域的一大突破，多模式LLMs不仅扩充了语言模型的能力，也带来了新的使用者体验。

图一及图二，是两个GPT-4V的图像理解实例：

GPT-4V

GPT-4V

GPT-4V分析表示：「Lululemon在线上市场活动和顾客互动方面展现出明显的领先优势，这显示了该品牌在线上和参与度上的成功。而Athleta在推广策略上有着高表现，这暗示着该品牌可能在市场活动和广告上投入了更多的资源和创意。另外，Alo Yoga在所有属性上的均衡表现，揭示了其采取的多元化策略。」这样的结果实在让我对GPT-4V刮目相看。

然而，GPT-4V尽管拥有先进功能，但也有其不足。根据OpenAI的技术报告，GPT-4V偶尔会有错误的判断，例如误将图像的文本结合成一个不存在的术语。和基本的GPT-4相似，GPT-4V可能产生误判或误导性的资讯，或遗失重要文本、数学符号等。它在医学影像分析或识别危险物质方面也存在局限。这些限制点明了，虽然GPT-4V具有巨大潜力，但仍需改进以确保其准确性和安全性。

藉由此先进的视觉语言模型，开发者和研究者得以开发新的应用场景。例如，在网页设计、医学影像解读、视觉辅助技术以及教育指导中，GPT-4V的应用显示出其如何推动各行业的创新进程。这种技术在其他多个领域中都有潜在的开创性应用，可能为社会带来广泛的利益。随着技术的持续进步及应用的日益拓展，我们期望未来能看到更多令人惊艳的技术突破和创新解决方案

您可能还喜欢...