图生文BLIP-2：图生文大语言图像预训练引导

249次阅读

大家好！今天我要和大家分享一个名为 BLIP- 2 的最新模型，它在网络上引起了轰动。这个模型不仅具备基本的 ” 看图说话 ” 功能，还可以写情诗、讲解剧情、设计图片中对象的对话等等。简直就是一位多才多艺的 AI！举个例子，当你在网上看到一张诱人的美食图片时，只需将图片发送给 BLIP-2，它就能立即识别出需要的食材和烹饪步骤。甚至连图片中隐藏的一些细节都能一清二楚地 ” 看 ” 出来。比如，当被问到如何从一幅倒着的房子的图片中离开，BLIP- 2 的回答是：侧面不是有滑梯嘛！

BLIP- 2 是一个全新的 AI 模型，它的全称是 ”Bootstrapping Language-Image Pre-training 2″，目前已经开源。与以往的研究不同，BLIP- 2 采用了一种通用的预训练框架，因此可以灵活地与各种语言模型进行对接。这项研究由 Salesforce Research 团队进行，其中之一的 Steven Hoi 表示，BLIP- 2 未来将成为 ” 多模态版 ChatGPT”。

BLIP- 2 的第一作者是 Junnan Li，他也是一年前发布的 BLIP 项目的主要作者。目前，他是 Salesforce 亚洲研究院的高级研究科学家。他本科毕业于香港大学，博士毕业于新加坡国立大学。他的研究领域非常广泛，包括自我监督学习、半监督学习、弱监督学习以及视觉 - 语言相关的研究。

如果你对 BLIP- 2 感兴趣，以下是它的论文链接和 GitHub 链接，大家可以自行查阅：
论文链接：BLIP- 2 论文
GitHub 链接：BLIP-2 GitHub

参考链接：[1] 推特链接 1
[2] 推特链接 2

希望大家对 BLIP- 2 感到兴奋！这个模型的优秀表现真的让人惊叹，它为我们展示了语言和图像之间的无限可能性。让我们共同期待 BLIP- 2 的未来发展！💪🤖

正文完

发表至： AGI

2023-12-21

解密大型语言模型的无尽流畅性：探索”注意力汇聚”现象

chatGPT对软件技术栈的冲击将逐渐显现

探索多语言的人工智能之旅：RWKV-5 World

Empowering Few-Shot Recommender Systems with Large Language Models — Enhanced Representations

无需任何训练,加速扩散模型的DeepCache开源！