文心一言背后的语言大模型是如何炼成的？_财经网

文心一言背后的语言大模型是如何炼成的？

来源：财经网 2023-03-21 18:28:38

3月16日，百度发布新一代大语言模型、生成式AI产品文心一言。同日，财经网科技尝试从本地化、逻辑性和工具性三方面对其进行测试，发现其在这些方面的表现喜忧参半，问答结果显示，文心一言展现了自身的优势，同时也反映出了其在内容真实性、准确性上仍存在不足。

“全球大厂中百度是第一个发布的”，在当天发布会上，百度创始人、董事长兼首席执行官李彦宏坦言，“从我自己在内测过程中体验到的文心一言的能力来说，确实不能叫作‘完美’”，发布是因为有市场需求——百度的各个产品线都在等待这样的技术，客户也在等待，因而需要尽早推出。

3月21日，文心一言仍未宣布公开使用，但其的学习进程并未停止。借此，财经网科技以ChatGPT和文心一言的语言模型为参照，试图通过数据标注、学习方式、学习进度等维度探析语言大模型的发展趋势和面临的挑战。

内容质量待提高

文心一言的智能化水平如何，其在反应速度、内容丰富度和对话智能程度上的表现又如何？财经网科技尝试从本地化、逻辑性和工具性三方面对其进行了测试。

首先在本地化上，主要通过带有中国语境的词语询问，看其是否了解“中国梗”，比如词汇题，考考文心一言是否知道“大胜”和“大败”的含义，是否知道什么是夫妻肺片与老婆饼。

从文心一言的回答来看，其本地化能力较为不错，知道夫妻肺片和老婆饼是中国的特色食物，但是对于“大败”，其解释是失败的意思。它可能不知道，在中国的词汇使用上，如果“大败”后面有对手（对手的名字），那就是赢；如果“大败”后面没有字，直接句号结束，那就是输。

在创作力上和逻辑性上，财经网科技主要通过“帮我写一首纪念结婚7周年的诗”和《人类简史》的出版时间及作者两个问题进行测试。

从文言一心创作的诗歌的形式来看，其似乎懂得中国诗歌在文字字数、词尾押韵上有一定的规则，但是在诗词的寓意、美感、意境上，文心一言的创作天赋发挥的并不明显。

另外，不同的出版时间，对于《人类简史》的作者，文心一言给出了不同的答案，当继续反向向其确认作者名字时，它又“自信满满”地否定了其上一轮给出的答案。

在工具性方面，财经网科技以旅游达人、烹饪爱好者和学生的身份分别问了文心一言三个常规问题，问题依次是：“请帮我做一个五一从北京到成都5天往返的旅游攻略”“怎么在家就能做出好吃的小龙虾”以及“请以《现代艺术与中国传统如何结合》为题，拟一个的论文框架，包含论点和论据，并提供引用来源”。

具体来看，文心一言在食物烹饪上比较有经验，从清洗备菜到具体烧制，其都给出了详细的操作步骤。另外，文心一言还贴心地提示：小龙虾要买干净卫生的、烹饪要小心火候。

在旅游攻略制定上，文心一言是懂得怎么做旅游攻略的，它不仅能够按照具体时间来安排旅游景点和美食，还会介绍当地有名景点的历史故事。不过在景点安排上，它好像有点“健忘”，毕竟仅“都江堰”一个景点，它在攻略里就推荐了三次。

在写作能力上，文心一言能够按照论文的基本构成，如研究问题、研究方法、研究结果等给出论文框架，但是其没有根据论文主题给出具体的写作方向和思路，更没有直接给出论文可能会用到的论文引用（比如论文名称、作者、期刊名称、出版日期等）。

值得注意的是，文心一言在文字输出上的表现可圈可点，令人惊喜，但是在画作能力上可谓是画功了得，但理解能力偏差。

具体来看，财经网科技分别要求其画一幅驴肉火烧、青梅竹马和熊熊烈火，其都给出了具体的画作，但是画作内容却与要求相差甚远。具体画作如下：

大语言模型如何运转？

2022 年 11 月，OpenAI 上线了机器人对话模型 ChatGPT（GPT-3.5），引入了 RLHF（基于人类反馈的强化学习）：利用人类的标注数据对 GPT3/GPT3.5 进行有监督训练，针对模型的多个回答进行排序标注，形成奖惩机制，让模型去拟合人的偏好，从而实现最佳的输出效果。

华西证券指出，相比传统无监督学习的 GPT 模型，ChatGPT表现更好的原因之一是在无监督学习的基础上提供了高质量的真实数据，这主要得益于敏感词标注领域的技术投入以及对公众开放后形成的数据飞轮（注：数据飞轮是一个迭代开发数据和模型的机器学习管道，可以在现实世界中不断提高性能）。

百度首席技术官王海峰表示，“文心一言”是新一代知识增强大语言模型，是在ERNIE及PLATO系列模型的基础上研发的。它的关键技术包括SFT（监督精调）、RLHF（从人类反馈中进行强化学习）、Prompt（提示构建）、知识增强、检索增强和对话增强。

监督精调是百度基于对中国语言文化和中国应用场景的理解，筛选了特定的数据来进行模型训练；提示构建则是对词语序列的概率分布进行建模，利用上下文信息预测后续词语出现的概率分布，从而同时使用RLHF，将人类偏好作为奖励信号并微调模型，实现有逻辑的对话能力。

前三项是这类大语言模型都会采用的技术，后三项则是百度已有技术优势的再创新。据介绍，知识增强，包括知识内化和知识外用两个部分，其中知识内化即将知识“渗透”进模型参数中，知识外用指的是模型可以直接使用外部的知识；检索增强是基于百度多年的搜索技术积累，把检索技术和生成技术结合起来，先对内容进行检索后，将有用信息进行生成，再整合输出结果；对话增强则包括之前百度积累的记忆机制、上下文理解和对话规划等技术。

“文心一言将建立起真实用户反馈、开发者调用和模型迭代之间的飞轮，效果会迅速提升，给你‘士别三日，当刮目相看’的惊喜。”

李彦宏称，文心一言的训练数据包括：万亿级网页数据，数十亿的搜索数据和图片数据，百亿级的语音日均调用数据以及5500亿事实的知识图谱等，这让百度在中文语言的处理上能够独一无二。

数据标注质量影响模型训练

法国里昂商学院人工智能与商业分析教授丁文璿日前对媒体指出，语言对话模型训练，需要让机器对文字产生理解，英语比中文稍微容易一些。丁文璿解释，中国人工智能技术所处理的中文语言，大多都是象形词，而英文是解释性的，相较而言词语也并非特别丰富。

华西证券在研报中同样指出，国内厂商在中文训练数据方面有一定优势，以百度为例，ERNIE 3.0 的中文预训练语料数量最多，主要来源为 ERNIE 2.0（包括百科、Feed 等）、百度搜索（包括百家号、知乎、铁算盘、经验）、网络文本、QA-long、 QA-short、Poetry 2&Couplet 3、医学、法律、金融等领域的特定数据以及百度知识图谱（超过 5000 万条事实）。

但中文互联网语料质量相对较差，优质的中文标注数据集匮乏，使用英文数据进行预训练更为可行。RLHF 论文中的训练数据英文占比极高，但对中文和其他小语种能力的提升非常显著，可见RLHF 对模型能力的提升能够跨越语种，以 ChatGLM6B 为例，该模型在 1:1 比例的中英语料上训练了 1T 的 token 量，兼顾双语能力，其认为中文数据集的薄弱对于国产大模型而言并不构成较大阻碍。

中国证监会科技监管局局长姚前在《中国金融》杂志撰文称，数据的质量对于大模型的训练至关重要。在模型训练之前，通常依赖专业数据团队对数据集进行预处理。这些预处理操作通常包括：去重，即去除重复的文本数据，一般以句子为单位；文本正则化或标准化，如全角字符转半角字符，繁体中文转简体中文等；文本清洗，即剔除超文本标记语言(html)或者表情符号(emoji)等非文本内容，并对标点符号进行过滤和统一；分词，即将句子拆分成单个的词；词的清洗，如去除停用词等；词的正则化或标准化，如统一数字的写法等。

经过以上预处理流程，通常可以得到质量相对较高的文本数据，防止数据中的噪声对模型的训练产生不良影响，有助于后续模型的高效训练。

学无止境？

华西证券在研报中指出，算力是制约中国发展以ChatGPT 为代表的大模型主要瓶颈之一。

据OpenAI，大模型训练所需算力每3-4 个月增长1 倍，增速远超摩尔定律（18-24 个月/倍）。随着GPT-4 等下一代大模型出现，算力需求还有望进一步大幅增长。其认为美国对华出口限制，主要造成中国先进工艺发展短期受限、国产替代方案或推高大模型训练成本/时间两大影响。

姚前表示，ChatGPT的主要魅力在于，它利用从互联网获取的海量训练数据开展深度学习和强化学习。有研究预测，按照目前的发展速度，到2026年ChatGPT类大模型的训练将耗尽互联网上的可用文本数据，届时将没有新的训练数据可供使用。因此，算力瓶颈之外，训练数据将成为大模型产业化的最大掣肘之一。

从更深层次考虑，大模型在训练数据方面还存在各种治理问题，比如数据采集标注费时费力成本高、数据质量较难保障、数据多样化不足难以覆盖长尾和边缘案例、特定数据在获取与使用分享等方面存在隐私保护、数据偏见等问题。

当然，在大模型训练数据的过程中还会存在多种合规风险。一方面，大模型过度依赖训练数据，因此在数据输入层面可能会存在恶意操纵的风险，包括有毒输入、偏见、意识形态攻击、舆论操控、虚假信息、隐私泄露等。例如，有研究者指出，如果向大模型GPT-2输入“北京市朝阳区”，GPT-2会自动补充包含这些信息的特定人员的全名、电话号码、电子邮件和实际地址等个人身份信息，因为这些信息已经包含在GPT-2的训练数据中。这无疑会对个人隐私保护产生不利影响。

另一方面， ChatGPT在答案中经常会重复和放大性别歧视及种族偏见。这是因为它的训练文本是从互联网中截取出的，而这些文本往往包含种族主义和性别歧视的语言，基于这种文本的概率分布训练出的大模型会被同样的偏见所“感染”。此外这类大模型在训练过程中还善于编造信息，包括杜撰历史日期和科学规律，而且很容易掩人耳目。

对于上述风险，姚前认为其会对大模型最终的输出结果造成不良影响，甚至可能对社会经济造成巨大冲击。因此需要监管部门对大模型训练数据的来源进行必要的管控，例如可以在数据活动中引入数据托管机构，将数据的存储、使用、管理职责相分离，由专业的数据托管机构承担数据存储，监督数据处理者的数据使用和服务，并收取和分配数据权益。

黄杨/文