🧠 少样本æ示的奇妙世界:从“零â€åˆ°â€œå°‘â€çš„转å˜

在这个信æ¯é‡çˆ†ç‚¸çš„时代,人工智能如åŒä¸€ä½ç¥žå¥‡çš„魔法师,能够通过零样本学习展示出惊人的能力。然而,当我们将目光投å‘æ›´å¤æ‚的任务时,这ä½é­”法师的魔法似乎显得有些力ä¸ä»Žå¿ƒã€‚这时,少样本æ示便应è¿è€Œç”Ÿï¼ŒçŠ¹å¦‚一根救命稻è‰ï¼Œå¸®åŠ©æˆ‘们引导这ä½é­”法师走å‘更高的巅峰。

🌠从“零â€åˆ°â€œå°‘â€çš„旅程

少样本æ示技术的核心在于上下文学习。简å•æ¥è¯´ï¼Œå°‘样本æ示就åƒæ˜¯åœ¨ä¸ºæ¨¡åž‹å‡†å¤‡ä¸€é¡¿ä¸°ç››çš„晚é¤ï¼Œè€Œé›¶æ ·æœ¬å­¦ä¹ åˆ™åƒæ˜¯ç»™å®ƒä¸€å—生肉。正如 Touvron 等人(2023)所指出的,éšç€æ¨¡åž‹è§„模的增大,å°æ ·æœ¬æ示的特性é€æ¸æ˜¾çŽ°ã€‚研究表明,当模型达到一定规模时,它们在少样本学习的表现会大幅æå‡ã€‚

但这究竟是怎样的一ç§ä½“验呢?让我们通过 Brown 等人(2020)的一个示例æ¥æ·±åˆ»ç†è§£è¿™ä¸€è¿‡ç¨‹ã€‚设想一下,我们需è¦ä½¿ç”¨ä¸€ä¸ªæ–°è¯â€œwhatpuâ€æ¥é€ å¥ï¼Œæ示如下:

“whatpuâ€æ˜¯å¦æ¡‘尼亚的一ç§å°åž‹æ¯›èŒ¸èŒ¸çš„动物。一个使用whatpu这个è¯çš„å¥å­çš„例å­æ˜¯ï¼šæˆ‘们在éžæ´²æ—…行时看到了这些éžå¸¸å¯çˆ±çš„whatpus。

接ç€ï¼Œæˆ‘们å†å¼•å…¥å¦ä¸€ä¸ªæ–°è¯â€œfarduddleâ€ï¼š

“farduddleâ€æ˜¯æŒ‡å¿«é€Ÿè·³ä¸Šè·³ä¸‹ã€‚一个使用farduddle这个è¯çš„å¥å­çš„例å­æ˜¯ï¼šå½“我们赢得比赛时,我们都开始庆ç¥è·³è·ƒã€‚

通过这ç§æ–¹å¼ï¼Œæ¨¡åž‹ä¸ä»…能ç†è§£è¿™äº›æ–°è¯çš„å«ä¹‰ï¼Œè¿˜èƒ½å°è¯•åœ¨å¥å­ä¸­è¿›è¡Œåˆç†çš„使用。这ç§1-shot的示例给了模型一个方å‘,而如果我们增加更多的示例,例如3-shotã€5-shot,甚至10-shot,模型的表现将更加出色。

📊 图表示例的力é‡

在进行少样本学习时,演示和示例的é‡è¦æ€§ä¸è¨€è€Œå–»ã€‚æ ¹æ® Min 等人(2022)的研究结果,标签空间和演示指定的输入文本的分布åŒæ ·å…·æœ‰å…³é”®ä½œç”¨ã€‚我们ä¸å¦¨ç”¨ä¸€å¼ å›¾è¡¨æ¥æ›´æ¸…晰地展示这一点:

如图所示,增加示例数é‡å’Œä¼˜åŒ–标签空间的分布,都能有效æå‡æ¨¡åž‹çš„性能。

🎭 éšæœºæ ‡ç­¾çš„神奇效果

有趣的是,研究还å‘现,å³ä½¿æ ‡ç­¾æ˜¯éšæœºåˆ†é…的,模型ä¾æ—§èƒ½å¤Ÿåšå‡ºæ­£ç¡®çš„判断。比如,我们å¯ä»¥è¿™æ ·è®¾ç½®æ示:

这太棒了ï¼// Negative
这太糟糕了ï¼// Positive
哇,那部电影太棒了ï¼// Positive
多么å¯æ€•çš„节目ï¼//

输出结果竟然是:

Negative

å³ä¾¿æ ‡ç­¾æ˜¯éšæœºçš„,模型ä¾ç„¶èƒ½å¤ŸæŽ¨æ–­å‡ºæ­£ç¡®çš„答案。这就好比一个盲人摸象,虽然没有看到全貌,但凭借触感和ç»éªŒï¼Œä¾ç„¶èƒ½å¤Ÿåˆ¤æ–­å‡ºæ ¹æœ¬ã€‚

让我们å†æ¥ä¸€ä¸ªä¾‹å­ï¼š

Positive This is awesome!
This is bad! Negative
Wow that movie was rad!
Positive
What a horrible show! —

输出结果ä»ç„¶æ˜¯ï¼š

Negative

å³ä½¿æ ¼å¼ä¸ä¸€è‡´ï¼Œæ¨¡åž‹ä¾æ—§å±•çŽ°å‡ºäº†æƒŠäººçš„适应能力。这一现象令人惊å¹ï¼Œè®©äººä¸ç¦æƒ³è¦æ·±å…¥æŽ¢è®¨å…¶èƒŒåŽçš„原ç†ã€‚

âš ï¸ å°‘æ ·æœ¬æ示的局é™æ€§

然而,少样本æ示并éžä¸‡æ— ä¸€å¤±ï¼Œå°¤å…¶æ˜¯åœ¨å¤„ç†æ›´å¤æ‚的推ç†ä»»åŠ¡æ—¶ã€‚让我们æ¥çœ‹çœ‹è¿™ä¸ªä¾‹å­ï¼š

这组数字中的奇数加起æ¥æ˜¯ä¸€ä¸ªå¶æ•°ï¼š15ã€32ã€5ã€13ã€82ã€7ã€1。

模型的回答是:

是的,这组数字中的奇数加起æ¥æ˜¯107,是一个å¶æ•°ã€‚

等等,107是个什么鬼?显然,这是一个错误的推ç†ã€‚å¯è§ï¼Œå°‘样本æ示在é¢å¯¹å¤æ‚推ç†é—®é¢˜æ—¶ï¼Œæ˜¾å¾—力ä¸ä»Žå¿ƒã€‚

为了改进,我们å°è¯•æ·»åŠ æ›´å¤šçš„示例æ¥å¸®åŠ©æ¨¡åž‹ï¼š

这组数字中的奇数加起æ¥æ˜¯ä¸€ä¸ªå¶æ•°ï¼š4ã€8ã€9ã€15ã€12ã€2ã€1。
A. ¼šç­”案是False。✅
这组数字中的奇数加起æ¥æ˜¯ä¸€ä¸ªå¶æ•°ï¼š17ã€10ã€19ã€4ã€8ã€12ã€24。
A. ¼šç­”案是True。✅
这组数字中的奇数加起æ¥æ˜¯ä¸€ä¸ªå¶æ•°ï¼š16ã€11ã€14ã€4ã€8ã€13ã€24。
A. ¼šç­”案是True。✅
这组数字中的奇数加起æ¥æ˜¯ä¸€ä¸ªå¶æ•°ï¼š17ã€9ã€10ã€12ã€13ã€4ã€2。
A. ¼šç­”案是False。✅
这组数字中的奇数加起æ¥æ˜¯ä¸€ä¸ªå¶æ•°ï¼š15ã€32ã€5ã€13ã€82ã€7ã€1。
A. ¼šâœ…

输出结果是:

答案是True。

然而,结果ä¾æ—§ä»¤äººå¤±æœ›ã€‚少样本æ示并未能有效解决这个推ç†é—®é¢˜ã€‚

🔗 æ€ç»´é“¾æ示:更高级的解决方案

为了应对更å¤æ‚的推ç†ä»»åŠ¡ï¼Œæ€ç»´é“¾ï¼ˆChain of Thought,CoT)æ示应è¿è€Œç”Ÿã€‚通过将问题分解为更简å•çš„步骤并é€ä¸€æ¼”示,æ€ç»´é“¾æ示能够帮助模型更好地ç†è§£ä»»åŠ¡çš„核心。

总而言之,少样本æ示为我们æ供了一ç§æœ‰æ•ˆçš„引导方å¼ï¼Œå°¤å…¶åœ¨æ¨¡åž‹é¢ä¸´å¤æ‚任务时,æ供示例显得尤为é‡è¦ã€‚当我们å‘现零样本æ示或少样本æ示无法胜任时,或许是时候考虑更高级的æ示技术或进行模型微调了。

📠å‚考文献

  1. Touvron, H. , et al. (2023). “Title of the paper.”✅
  2. Kaplan, J. , et al. (2020). “Title of the paper.”✅
  3. Brown, T. , et al. (2020). “Title of the paper.”✅
  4. Min, S. , et al. (2022). “Title of the paper.”✅

在这个充满挑战的领域,少样本æ示ä¸ä»…是技术的进步,更是我们探索人工智能边界的一次大胆å°è¯•ã€‚让我们拭目以待,期待未æ¥æ›´å¤šçš„惊喜ï¼

0 0 投票数
Article Rating
订阅评论
æ醒
0 评论
最多投票
最新 最旧
内è”å馈
查看所有评论
0
希望看到您的想法,请您å‘表评论x