🌌 探索多模æ€çš„未æ¥ï¼šJanus-Pro çš„ç®—æ³•å®žçŽ°ä¸Žç»†èŠ‚è§£æž New

在人工智能的浪潮中,多模æ€ç†è§£ä¸Žç”ŸæˆæŠ€æœ¯å¦‚åŒä¸€é¢—璀璨的新星,正在ä¸æ–­å¸å¼•ç€ç ”究者和开å‘者的目光。今天,我们将深入探讨 Janus-Pro,这一在多模æ€é¢†åŸŸä¸­è¡¨çŽ°å“越的模型。通过对其算法实现的详细解æžï¼Œå°¤å…¶æ˜¯è®­ç»ƒç­–ç•¥ã€æ•°æ®æ‰©å±•å’Œæ¨¡åž‹è§„模的具体细节,我们将æ­ç¤º Janus-Pro 是如何在多模æ€ç†è§£å’Œæ–‡æœ¬åˆ°å›¾åƒç”Ÿæˆä»»åŠ¡ä¸­å–得显著进展的。

📚 引言:多模æ€çš„崛起

éšç€æ·±åº¦å­¦ä¹ æŠ€æœ¯çš„ä¸æ–­è¿›æ­¥ï¼Œç»Ÿä¸€çš„多模æ€ç†è§£ä¸Žç”Ÿæˆæ¨¡åž‹é€æ¸å±•çŽ°å‡ºå…¶å¼ºå¤§çš„潜力。Janus-Pro 是在其å‰èº« Janus 的基础上进行改进的,主è¦é€šè¿‡ä¼˜åŒ–训练策略ã€æ‰©å±•è®­ç»ƒæ•°æ®å’Œå¢žåŠ æ¨¡åž‹è§„模æ¥æå‡æ€§èƒ½ã€‚æœ¬æ–‡å°†è¯¦ç»†è§£æž Janus-Pro 的算法实现,帮助读者更好地ç†è§£å…¶èƒŒåŽçš„技术细节。

ðŸ› ï¸ ç®—æ³•å®žçŽ°çš„æ ¸å¿ƒæž¶æž„

1. 架构概述

Janus-Pro 的核心设计ç†å¿µæ˜¯å°†è§†è§‰ç¼–ç è§£è€¦ï¼Œä»¥ä¾¿äºŽå¤šæ¨¡æ€ç†è§£å’Œç”Ÿæˆä»»åŠ¡çš„独立处ç†ã€‚其架构如图 3 所示,采用了独立的编ç æ–¹æ³•å°†åŽŸå§‹è¾“入转æ¢ä¸ºç‰¹å¾ï¼Œå¹¶é€šè¿‡ç»Ÿä¸€çš„自回归å˜æ¢å™¨è¿›è¡Œå¤„ç†ã€‚

  • ç†è§£ç¼–ç å™¨ï¼šä½¿ç”¨ SigLIP ç¼–ç å™¨æå–高维语义特å¾ï¼Œå°†å›¾åƒç‰¹å¾ä»ŽäºŒç»´ç½‘格展平为一维åºåˆ—。通过这ç§æ–¹å¼ï¼ŒJanus-Pro 能够æ•æ‰åˆ°å›¾åƒä¸­çš„细微差别和å¤æ‚的语义信æ¯ã€‚
  • 生æˆç¼–ç å™¨ï¼šé‡‡ç”¨ VQ 分è¯å™¨å°†å›¾åƒè½¬æ¢ä¸ºç¦»æ•£ ID,之åŽå°† ID åºåˆ—展平为一维,并通过生æˆé€‚é…器映射到 LLM 的输入空间。这ç§æ–¹æ³•ä½¿å¾—生æˆè¿‡ç¨‹æ›´åŠ é«˜æ•ˆï¼Œèƒ½å¤Ÿå¿«é€Ÿå“应用户的文本指令。

è¿™ç§è®¾è®¡ä½¿å¾— Janus-Pro 能够在多模æ€ç†è§£å’Œç”Ÿæˆä»»åŠ¡ä¸­å®žçŽ°æ›´é«˜æ•ˆçš„特å¾å¤„ç†ã€‚

2. 优化的训练策略

Janus-Pro 的训练过程分为三个阶段,针对æ¯ä¸ªé˜¶æ®µè¿›è¡Œäº†ä¼˜åŒ–:

  • 第一阶段:专注于适é…器和图åƒå¤´çš„训练。通过增加训练步骤,确ä¿å¯¹ ImageNet æ•°æ®é›†çš„充分训练,从而有效建模åƒç´ ä¾èµ–性。研究å‘现,充分的训练能够显著æå‡æ¨¡åž‹å¯¹å›¾åƒå†…容的ç†è§£èƒ½åŠ›ã€‚
  • 第二阶段:进行统一预训练,直接利用正常的文本到图åƒæ•°æ®è¿›è¡Œè®­ç»ƒï¼Œè€Œä¸å†ä½¿ç”¨ ImageNet æ•°æ®ã€‚这样的调整æ高了训练效率和整体性能,使模型能够更好地适应实际应用场景。
  • 第三阶段:监ç£å¾®è°ƒï¼Œè°ƒæ•´ä¸åŒç±»åž‹æ•°æ®é›†çš„比例,将多模æ€æ•°æ®ã€çº¯æ–‡æœ¬æ•°æ®å’Œæ–‡æœ¬åˆ°å›¾åƒæ•°æ®çš„比例从 7:3:10 改为 5:1:4,以ä¿æŒå¼ºå¤§çš„视觉生æˆèƒ½åŠ›ï¼ŒåŒæ—¶æå‡å¤šæ¨¡æ€ç†è§£æ€§èƒ½ã€‚这一策略的实施,使得模型在多模æ€ä»»åŠ¡ä¸­çš„表现更加å‡è¡¡ã€‚

3. æ•°æ®æ‰©å±•ä¸Žè´¨é‡æå‡

在数æ®æ‰©å±•æ–¹é¢ï¼ŒJanus-Pro 在多模æ€ç†è§£å’Œè§†è§‰ç”Ÿæˆä¸¤ä¸ªæ–¹é¢è¿›è¡Œäº†å¤§è§„模的数æ®æ‰©å±•ï¼š

  • 多模æ€ç†è§£ï¼šåœ¨ç¬¬äºŒé˜¶æ®µçš„预训练数æ®ä¸­ï¼Œå¢žåŠ äº†çº¦ 9000 万个样本,包括图åƒæè¿°æ•°æ®é›†ï¼ˆå¦‚ YFCC)和表格ã€å›¾è¡¨ã€æ–‡æ¡£ç†è§£çš„æ•°æ®é›†ã€‚这些数æ®çš„引入显著æå‡äº†æ¨¡åž‹å¤„ç†å¤šæ ·åŒ–任务的能力,使其在ç†è§£å¤æ‚场景时表现得更加出色。
  • 视觉生æˆï¼šä¸ºäº†æ高生æˆå›¾åƒçš„è´¨é‡ï¼ŒJanus-Pro 引入了约 7200 万个åˆæˆç¾Žå­¦æ•°æ®æ ·æœ¬ï¼Œä½¿å¾—真实数æ®ä¸Žåˆæˆæ•°æ®çš„比例达到 1:1。这一策略使得模型在训练时收敛更快,生æˆçš„文本到图åƒè¾“出ä¸ä»…更稳定,而且美学质é‡æ˜¾è‘—æå‡ã€‚

4. 模型规模的扩展

Janus-Pro 在模型规模上进行了扩展,验è¯äº†è§†è§‰ç¼–ç è§£è€¦çš„有效性。通过将模型规模从 1.5B 扩展到 7B. ¼Œè§‚察到在更大规模的 LLM 下,多模æ€ç†è§£å’Œè§†è§‰ç”Ÿæˆçš„æŸå¤±æ”¶æ•›é€Ÿåº¦æ˜¾è‘—æ高。这一å‘现进一步验è¯äº†è¯¥æ–¹æ³•çš„强大å¯æ‰©å±•æ€§ï¼Œä½¿å¾— Janus-Pro 在é¢å¯¹å¤æ‚任务时能够ä¿æŒé«˜æ•ˆçš„性能。✅

📊 实验与评估

1. 多模æ€ç†è§£èƒ½åŠ›çš„评估

为了评估 Janus-Pro 的多模æ€ç†è§£èƒ½åŠ›ï¼Œç ”究团队在多个广泛认å¯çš„图åƒåŸºç¡€è§†è§‰è¯­è¨€åŸºå‡†ä¸Šè¿›è¡Œäº†æµ‹è¯•ã€‚结果显示,Janus-Pro-7B 在 MMBench 基准上å–得了 79.2 的得分,超越了包括 Janusã€TokenFlow å’Œ MetaMorph 等在内的多ç§ç»Ÿä¸€å¤šæ¨¡æ€æ¨¡åž‹ã€‚这一æˆç»©ä¸ä»…è¯æ˜Žäº†å…¶åœ¨ç†è§£ä»»åŠ¡ä¸­çš„优势,也为åŽç»­ç ”究æ供了é‡è¦å‚考。

2. 视觉生æˆèƒ½åŠ›çš„评估

在视觉生æˆèƒ½åŠ›çš„评估中,Janus-Pro-7B 在 GenEval 基准上获得了 80% 的整体准确率,超越了所有其他统一或生æˆä¸“用方法。这一结果表明,Janus-Pro 在éµå¾ªå¤æ‚指令生æˆå›¾åƒæ–¹é¢è¡¨çŽ°ä¼˜å¼‚,能够为用户æ供高质é‡çš„视觉内容。

ðŸ–¼ï¸ å®šæ€§ç»“æžœå±•ç¤º

Janus-Pro 的多模æ€ç†è§£å’Œè§†è§‰ç”Ÿæˆèƒ½åŠ›çš„定性结果展示了其强大的处ç†èƒ½åŠ›ã€‚生æˆçš„图åƒä¸ä»…真实感å足,而且在细节上也表现出色。尽管图åƒåˆ†è¾¨çŽ‡ä¸º 384 × 384,但生æˆçš„图åƒä»ç„¶åŒ…å«ä¸°å¯Œçš„细节,能够准确æ•æ‰æ示中的语义信æ¯ã€‚图 4 展示了 Janus-Pro 在多ç§åœºæ™¯ä¸‹çš„表现,令人å°è±¡æ·±åˆ»ã€‚

🔠结论

Janus-Pro 通过在训练策略ã€æ•°æ®æ‰©å±•å’Œæ¨¡åž‹è§„模等方é¢çš„改进,显著æå‡äº†å¤šæ¨¡æ€ç†è§£å’Œæ–‡æœ¬åˆ°å›¾åƒç”Ÿæˆçš„能力。尽管如此,Janus-Pro ä»å­˜åœ¨ä¸€äº›å±€é™æ€§ï¼Œä¾‹å¦‚输入分辨率é™åˆ¶å’Œç»†èŠ‚é‡å»ºæŸå¤±ç­‰é—®é¢˜ã€‚未æ¥çš„工作å¯ä»¥é›†ä¸­åœ¨æ高图åƒåˆ†è¾¨çŽ‡å’Œè¿›ä¸€æ­¥ä¼˜åŒ–生æˆè´¨é‡ä¸Šã€‚

通过对 Janus-Pro 算法实现的深入分æžï¼Œæˆ‘们希望能为读者æ供对多模æ€æŠ€æœ¯çš„更深入ç†è§£ï¼Œå¹¶æ¿€åŠ±æ›´å¤šçš„研究者在这一领域的探索与创新。

📚 å‚考文献

  1. Chen, X. , Wu, Z., Liu, X., Pan, Z., Liu, W., Xie, Z., Yu, X., Ruan, C. (2023). Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling. DeepSeek-AI.✅
  2. Janus-Pro GitHub Page

评论

å‘表回å¤

人生梦想 - 关注å‰æ²¿çš„计算机技术 acejoy.com