AI – 第 7 页 – 借一步网

在OpenAI最近的一场20多分钟的发布会中，GPT-4o正式亮相。然而，这一新发布的模型并未获得所有专家的一致认可。尽管GPT-4o原生支持多模态，但一些业内大佬对其进步似乎并不买账。

GPT-4o：小升级还是重大突破？

在OpenAI联合创始人、现已离开的传奇大神AK看来，GPT-4o仅仅是一个文本、音频和视觉组合的模型，可以在一个神经网络中处理所有三种模态，甚至可以在特殊情况下进行实时语音翻译。马老板也认为，这种对GPT-4o的描述更加准确，隐隐透露出一丝酸意。

然而，当OpenAI CEO Sam Altman转发了开发GPT-4o背后的团队故事后，外界才真正了解到，要实现原生多模态能力，需要一个怎样的神仙团队。

18人内核团队：开创人机交互新历史

马斯克曾在采访中表示，OpenAI推出ChatGPT的最大意义在于，创造了一个人机交互的界面，让普通人能用文本与AI交流。而GPT-4o则希望在人机交互的媒介上进一步拓展，除了文本，还包括音频和视觉等。

要实现这一目标，OpenAI的Omni Team共由18人组成，其中4名华人，几乎都是90后。团队领导Prafulla Dhariwal本科学历的背景也显得尤为特别，他在本科毕业后直接加入OpenAI，参与过强化学习、无监督学习以及Scaling Law等前沿研究，还参与了DALL-E 2、GPT-3、DALL-E 3等关键项目。

核心成员：多领域天才齐聚

James Betker：负责图像、音频、数据和后期训练等方面，被评价为任何任务都能搞定的多面手。曾在Garmin和谷歌工作过，适应能力和职业道德备受认可。
Rowan Zellers：视频方面的负责人，让模型能够像人类一样观看视频。他博士毕业后直接加入OpenAI，参与了多个关键项目，包括GPT-4。
Alexis Conneau：音频方向的负责人，第一个提出将电影《Her》中Samantha角色复刻到现实中的人。他在谷歌和Meta AI工作过，参与过影响10亿用户的项目，论文曾获EMNLP最佳论文奖。

华人科学家的贡献

OpenAI的重要项目中从不缺乏华人的身影，GPT-4o的研发也不例外：

Li Jing：北大物理系毕业，MIT博士，曾参与DALL-E和Sora项目。
Jiahui Yu：中科大本科，UIUC博士，现为OpenAI感知团队的负责人，曾是谷歌Gemini多模态的负责人。
Yu Zhang：上海交大本科，MIT博士，曾在谷歌DeepMind工作。
Huiwen Chang：清华大学本科，普林斯顿大学博士，加入OpenAI前在谷歌担任研究科学家。
Qiming Yuan：清华大学本科，德州大学奥斯丁分校硕士，负责语言的预训练数据处理，曾在Dropbox和微软工作。

未来展望

GPT-4o的推出，不仅展示了OpenAI团队的非凡实力，也揭示了未来人机交互的更多可能性。虽然目前的评价存在争议，但不可否认的是，GPT-4o在多模态处理上的突破，将为人类与AI的交流带来更多新方式和新体验。

总的来说，这18人的神仙团队，正通过他们的聪明才智和不懈努力，开创人机交互的新历史，将AI的可能性推向新的高度。

GPT-4o背后的神仙团队：项目负责人为本科学历，北大/清华/交大/中科大校友在列
https://dig.chouti.com/link/42443601

打破瓶颈：一种层次化框架优化大规模语言模型的答案选择

DeepSeek-V2中的MLA详解

GPT-4o背后的神仙团队

GPT-4o：小升级还是重大突破？

18人内核团队：开创人机交互新历史

核心成员：多领域天才齐聚

华人科学家的贡献

未来展望

AI搜索：通向未来的关键一步

AI搜索全解析

谷歌反击：Project Astra正面硬刚GPT-4o、新版Gemini变革搜索

Project Astra 正面硬刚 GPT-4o！Veo 对抗 Sora！

MLA的潜在表示和StableDiffusion的潜空间的异同

缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA

探索人工智能的未来：从多头注意力到多头潜在注意力

合成数据：人工智能训练的新利器