2023年最重要的三项AI创新

Chatbot looking out of a smartphone display. Text bubbles floating around. Pink background.

(SeaPRwire) –   在许多方面,2023年是人们开始真正理解AI是什么以及它可以做什么的一年。这是聊天机器人首次真正流行的一年,也是政府开始认真对待AI风险的一年。这些发展并不是那么多新的创新,而是长期孕育的技术和想法走到中心舞台。

但也有很多新的创新。下面是过去一年最重要的三项:

多模态

“多模态”听起来可能像专业术语,但它的含义值得理解:它是AI系统能够处理各种不同类型数据的能力 – 不仅仅是文本,也包括图像、视频、音频等。

今年是公众首次获得访问强大多模态AI模型的机会。OpenAI的GPT-4是第一个这样的模型,允许用户上传图像以及文本输入。GPT-4可以“看到”图像内容,这为例如根据冰箱内容照片询问它应该做什么晚餐等各种可能性打开了大门。9月,OpenAI推出用户可以通过语音以及文本与ChatGPT交互的功能。

谷歌DeepMind的最新模型Gemini在12月公布,它也可以处理图像和音频。谷歌分享的视频中显示该模型可以识别一张贴纸上的鸭子线画。在同一视频中,在向它展示粉红色和蓝色毛线的图片并问它可以用来制作什么后,Gemini生成了一个粉红色和蓝色章鱼玩具的图片。(市场营销视频似乎显示Gemini可以实时观察移动图像并响应音频命令,但在其网站上的一篇文章中,谷歌表示视频已编辑简短 – 模型实际上使用静态图像而不是视频进行提示,使用文本提示而不是音频,尽管模型确实具有。)

“我认为人们会回顾并记住的下一个里程碑,是[AI系统]更全面地采用多模态,”谷歌DeepMind联合创始人Shane Legg在10月的一个采访中说。“这是这个转型的早期,当你开始真正消化大量视频和其他东西时,这些系统将开始对世界有更深入的理解。”11月在接受时代杂志采访时,OpenAI首席执行官Sam Altman说,公司新模型中的多模态性将是下一个年份值得关注的重点之一。

多模态性的承诺不仅仅是模型变得更有用。它也意味着模型可以在图像、视频、音频等包含比文本更丰富世界信息的数据集上进行训练。许多顶级AI公司内部的信念是,这些新训练数据将转化为这些模型变得更有能力或更强大。这是许多AI科学家希望的一步,朝着“人工通用智能”迈进 – 可以与人类智力匹配的系统,进行新科学发现并开展经济价值很高的工作。

宪法AI

AI如何与人类价值观一致是一个主要未解决的问题。如果这些系统比人类更聪明和强大,如果不以人类福祉为中心加以约束,它们可能会给我们的物种带来难以想象的伤害 – 有人甚至说可能导致全面灭绝。

OpenAI用来使ChatGPT与(避免早期模型的)工作得很好 – 但它需要大量人工劳动,通过一种称为“与人类反馈的强化学习”或RLHF的技术。人类评估者会评估AI的响应,如果响应有帮助、无害并遵守OpenAI的内容规则,就给予它计算机等价的奖励。通过奖励AI表现好并惩罚它表现不好,OpenAI开发了一个有效且相对无害的聊天机器人。

但是,由于RLHF过程很大程度上依赖人工劳动,它的可扩展性存在很大问题。这很昂贵。它受个别评估者的偏差或错误影响。规则列表越复杂,失败可能性越大。它看起来不太可能适用于人类无法理解的强大AI系统。

宪法AI – 首次由2023年12月顶级AI实验室Anthropic的研究人员在一篇论文中描述 – 尝试解决这些问题,利用AI系统现在能够理解自然语言这一事实。这个想法非常简单。首先,你写一份“宪法”概述你希望AI遵循的价值观。然后训练AI根据宪法对响应进行评分,以判断响应的一致程度,并激励模型输出评分更高的响应。不是从人类反馈中进行强化学习,而是从AI反馈中进行强化学习。Anthropic的研究人员写道,“这些方法可以更精确地控制AI行为,并且需要远少量的人工标签。”宪法AI被用于对齐Anthropic 2023年的答复ChatGPT。(Anthropic的投资者包括Salesforce,时代杂志联合主席兼所有人马克·贝尼奥夫是其CEO。)

“使用宪法AI,您明确写下模型应该如何面对世界的规范前提,”Anthropic政策负责人杰克·克拉克在8月告诉时代杂志。“然后模型根据这些规则进行训练。”仍有问题,比如确保AI真正理解规则的精神而不是仅仅理解文字,(“您把赌注押在一个大而不透明的AI模型上,”克拉克说,)但这一技术是值得期待的新对齐策略之一。

当然,宪法AI没有回答AI应该与哪个人的值观一致这个问题。但Anthropic正在尝试民主化这个问题。10月,实验室运行了一个实验,征求1000名美国代表群体帮助选择聊天机器人的规则,发现虽然存在一些分歧,但仍然可以基于群体达成共识的声明起草一个可行的宪法。这样的实验可能会打开普通人参与如何管理AI的大门,相比今天只有少数硅谷高管制定规则,这将是一大进步。

文本到视频

AI行业今年投入的数十亿美元的一个明显结果是文本到视频工具迅速兴起。去年,文本到图像工具流行;现在,有几家公司提供将句子转变为移动图像的能力,精细程度不断提高。

这些公司之一是Brooklyn的AI视频初创公司Runway,它希望使电影制作对任何人来说都更容易。其最新模型Gen-2不仅可以从文本生成视频,还可以根据文本提示改变现有视频的风格(例如,将一张餐桌上的谷物盒照片转变为夜景城市景观),这一过程它称为视频到视频。

“我们的使命是为人类创造性建立工具,”Runway首席执行官在5月告诉时代杂志。他承认这将影响创意行业的工作,AI工具快速使一些技术专业知识变得过时,但他认为值得这种动荡。“我们的愿景是人类创造力得到增强和加强,它不再那么关注技术规格和知识,更关注你的想法。”(Runway的投资者包括Salesforce,时代杂志联合主席兼所有人马克·贝尼奥夫是其CEO。)

本文由第三方内容提供商提供。SeaPRwire (https://www.seaprwire.com/)对此不作任何保证或陈述。

分类: 头条新闻,日常新闻

SeaPRwire为公司和机构提供实时新闻稿发布,覆盖超过6,500个媒体库、86,000名编辑和记者,以及90个国家350万台专业桌面电脑。SeaPRwire支持英、日、德、韩、法、俄、印尼、马来、越南、中文等多种语言新闻稿发布。部分简体中文媒体:AsiaEase, AsiaFeatured, AseanFun, SinchewBusiness, SEAChronicle, SingdaoPR, TodayInSG, LionCityLife, VOASG, SingapuraNow 

文本到视频领域的另一家初创公司是Pika AI,据报道它每周生成数百万个新视频。由斯坦福两位辍学生创立的这家公司于4月上市,但已经获得融资,估值在2至3亿美元之间,根据报道。以普通用户而不是专业电影制作人为目标,它提供免费工具。