中文对话AI的关键障碍

180次阅读

近年来，随着 OpenAI 推出的 chatGPT 的火爆，越来越多的中国互联网巨头纷纷加入通用对话大语言模型（GPT）的研发领域。然而，对于这些大型模型，许多非业内人士可能并不了解其中的技术细节。实际上，这些模型的代码量并不大，结构的复杂也不过是很多层类似的 Transformer 不断重复而已。尽管训练大型模型的难度较大，但这并非无法克服的挑战。

真正的难题在于高质量语料的匮乏。中文互联网自从强制备案以来，逐渐枯萎，严格的审查制度使得中文表达的有效性降低，进一步导致语言的小圈子化。此外，各大互联网巨头主推 App，纷纷筑起了信息高墙，使得搜索引擎爬取信息变得极为困难，甚至不可能，进而加剧了信息孤岛化现象。

在这种背景下，自媒体、营销号等无底线的抄袭和洗稿行为进一步破坏了创作者生态，使得优质长内容在中文互联网上几乎绝迹。目前，多学科、多专业的严肃长内容中文网站寥寥无几，知乎或许是其中的佼佼者。在这样的生态环境中，一切向钱看，各类文字创作如小说、故事、软文，往往成为割韭菜的盛宴。

面对如此严峻的现状，我们不禁要问：如何获取足够多的优质语料来训练中文大语言模型呢？巧妇难为无米之炊，这句古老的谚语似乎反映了当前的困境。最终，人们可能只能依赖将英文语料翻译成中文再进行模型训练的方法，但这样做究竟意义何在？难道仅仅是为了增加一个步骤吗？

事实上，大型语言模型本来就具有跨语言理解语义的能力，但翻译过程中往往会带来语义损失。一种语言文字的生命力，实际上源于其承载的文化，尤其是科技文化。随着 GPT- 4 等大语言模型的加持，英语的主导地位将得到空前的加强，甚至有朝一日成为全球唯一的活语言，而其他语种将快速走向式微。

这种情况和微软的 dotnet 平台上的 C# 语言与其他语言的演化过程颇为类似。

以下省略 200 字。

正文完

AGI AI 中文

发表至： AGI

2023-03-31

LangChain 中的链

YAYI 2: Multilingual Open-Source Large Language Models

解密Tele-FLM：高效的多语言大型语言模型

Prompt Engineering的现在和未来

百度文心一言