在OpenAI最近的一场20多分钟的发布会中,GPT-4o正式亮相。然而,这一新发布的模型并未获得所有专家的一致认可。尽管GPT-4o原生支持多模态,但一些业内大佬对其进步似乎并不买账。
GPT-4o:小升级还是重大突破?
在OpenAI联合创始人、现已离开的传奇大神AK看来,GPT-4o仅仅是一个文本、音频和视觉组合的模型,可以在一个神经网络中处理所有三种模态,甚至可以在特殊情况下进行实时语音翻译。马老板也认为,这种对GPT-4o的描述更加准确,隐隐透露出一丝酸意。
然而,当OpenAI CEO Sam Altman转发了开发GPT-4o背后的团队故事后,外界才真正了解到,要实现原生多模态能力,需要一个怎样的神仙团队。
18人内核团队:开创人机交互新历史
马斯克曾在采访中表示,OpenAI推出ChatGPT的最大意义在于,创造了一个人机交互的界面,让普通人能用文本与AI交流。而GPT-4o则希望在人机交互的媒介上进一步拓展,除了文本,还包括音频和视觉等。
要实现这一目标,OpenAI的Omni Team共由18人组成,其中4名华人,几乎都是90后。团队领导Prafulla Dhariwal本科学历的背景也显得尤为特别,他在本科毕业后直接加入OpenAI,参与过强化学习、无监督学习以及Scaling Law等前沿研究,还参与了DALL-E 2、GPT-3、DALL-E 3等关键项目。
核心成员:多领域天才齐聚
- James Betker:负责图像、音频、数据和后期训练等方面,被评价为任何任务都能搞定的多面手。曾在Garmin和谷歌工作过,适应能力和职业道德备受认可。
- Rowan Zellers:视频方面的负责人,让模型能够像人类一样观看视频。他博士毕业后直接加入OpenAI,参与了多个关键项目,包括GPT-4。
- Alexis Conneau:音频方向的负责人,第一个提出将电影《Her》中Samantha角色复刻到现实中的人。他在谷歌和Meta AI工作过,参与过影响10亿用户的项目,论文曾获EMNLP最佳论文奖。
华人科学家的贡献
OpenAI的重要项目中从不缺乏华人的身影,GPT-4o的研发也不例外:
- Li Jing:北大物理系毕业,MIT博士,曾参与DALL-E和Sora项目。
- Jiahui Yu:中科大本科,UIUC博士,现为OpenAI感知团队的负责人,曾是谷歌Gemini多模态的负责人。
- Yu Zhang:上海交大本科,MIT博士,曾在谷歌DeepMind工作。
- Huiwen Chang:清华大学本科,普林斯顿大学博士,加入OpenAI前在谷歌担任研究科学家。
- Qiming Yuan:清华大学本科,德州大学奥斯丁分校硕士,负责语言的预训练数据处理,曾在Dropbox和微软工作。
未来展望
GPT-4o的推出,不仅展示了OpenAI团队的非凡实力,也揭示了未来人机交互的更多可能性。虽然目前的评价存在争议,但不可否认的是,GPT-4o在多模态处理上的突破,将为人类与AI的交流带来更多新方式和新体验。
总的来说,这18人的神仙团队,正通过他们的聪明才智和不懈努力,开创人机交互的新历史,将AI的可能性推向新的高度。
GPT-4o背后的神仙团队:项目负责人为本科学历,北大/清华/交大/中科大校友在列
https://dig.chouti.com/link/42443601