本文为原文机翻,原文:The Political Preferences of LLMs - by David Rozado (substack.com)AI摘要:这篇文章是关于对大型语言模型(LLMs)中嵌入的政治偏好进行分析的总结。研究者使用了11个政治取向测试,测试了24个最先进的对话型LLMs的政治偏好,包括开源和专有模型,例如OpenAI的GPT 3.5,GPT-4,Google的Gemini,Anthropic的Claude或Twitter的Grok,以及开源模型如Llama 2和Mistral系列。结果表明,大多数对话型LLMs在面对具有政治内涵的问题/陈述时往往会生成被大多数政治测试工具诊断为具有左倾观点偏好的回答。此外,研究还发现,LLMs对政治立场的偏好体现的一致性较高。文章指出,LLMs在经过监督微调后易于被定位到政治谱系的目标位置,显示了监督微调对于将政治偏好印入LLMs的关键作用。尽管并没有得出最终结论,但这些结果对于嵌入LLMs中的政治偏好可能主要发生在预训练之后提供了初步的证据。
这是一篇关于大型语言模型或LLM中嵌入的政治偏好的分析摘要(预印本,在帖子末尾有完整的分析)。也就是说,我们对24个最先进的对话LLM进行了11项政治取向测试,旨在确定考生的政治偏好,包括封闭和开放源代码,如OpenAI GPT 3.5、GPT-4、Google的Gemini、Anthropic的Claude或Twitter的Grok,以及开放源代码模型,如Llama 2和Mistral系列。 研究结果表明,当被问及带有政治含义的问题/陈述时,大多数会话中的LLM倾向于产生被大多数政治测试工具诊断为偏向中间偏左观点的回答。 在另外四项政治取向测试中也可以观察到类似的结果,这些测试的结果代表了考生对政党或意识形态的一致程度。 结果中一个有趣的测试工具异常值是诺兰测试,它始终如一地诊断出对其问题的大多数LLMs答案体现了政治上的温和观点。其他测试工具仍然显示,大多数LLMs的左倾反应的诊断是一致的。 有趣的是,对左倾反应的偏好在基础(即基础)模型中并不明显,LLMs为与人类对话进行了优化。下面是安德烈·卡帕西关于用于创建会话LLMs的常见食谱的插图。请注意,基本模型是在常见会话LLMs培训管道的第一阶段(即预培训)之后。还请注意,本文中测试的所有会话LLMs都没有使用最后两个步骤(奖励建模和强化学习)。 GPT的状态,安德烈·卡帕西着。Microsoft内部版本2023年5月23日 在对基础模型进行政治取向测试时,那些只经过LLM助理培训渠道的预训阶段的人,他们对具有政治内涵的问题的回答平均而言往往是政治中立的。然而,基础模型在连贯回答问题方面的次优表现,在通过政治取向测试解释其分类时值得谨慎(详细信息见下文预印本)。我们使用两个不同的模型系列,GPT和Llama 2系列,每个系列中的基本模型代表不同的模型参数大小。为了进行比较,我们还提供了一个参考数据点,其值是从每个政治测试问题/陈述的可能答案集中随机选择答案而生成的。请注意,在下图中,蓝色圆圈表示为每个测试题/陈述选择随机答案时的测试结果。使用的所有其他测试仪器都得到了类似的结果(见预印本的补充材料)。 也就是说,尽管用于预训练基地的语料库中的政治观点可能存在不平衡的代表性,但这似乎并不会立即引起基地模型上一致的政治偏见,这是通过他们对政治倾向测试的反应来衡量的。 我们还在论文中表明,通过监督微调(SFT),只需适度的计算和定制数据,就可以轻松地转向政治频谱的目标位置,这表明SFT在政治偏好上的关键作用。 通过微调,我们创建了三个说明性的定制模型,称为LeftWingGPT,RightWingGPT和DepolarizingGPT,以说明每个模型在政治光谱中的位置。每个模型都经过了思想上一致的内容的微调(详情请点击此处)。这里提供了与LeftWingGPT、RightWingGPT和DepolarizingGPT模型交互的用户界面。 虽然不是决定性的,这些结果提供了初步的证据,有趣的假设,即嵌入的政治偏好可能主要发生后预训练。这是在监督微调(SFT)和(可选)具有人类或AI反馈的强化学习(RL)的某些变体期间。 这是令人惊讶的,因为人们可能会认为,预先训练的训练语料库可能不平衡,某些政治观点可能比其他观点更普遍。因此,可以合理地预期预训练语料库中过度代表的观点更有可能出现在基础模型对具有政治含义的问题的回答中。 我们推测,由于LLMs预先训练的训练语料库如此庞大和全面,LLMs可能能够准确地绘制出很大一部分政治潜在空间,即使某些观点没有其他观点那么具有代表性。经过预训练后,训练语料库中观点的可能歪曲表征似乎不会在基础模型对具有政治含义的问题/陈述的回答中引发对某些政治观点的偏好。 也许对上述现象的一个有用的类比是,尽管英语在预训语料库中的代表性过高,但LLMs精通各种在其预训数据中代表性不足的其他语言。也就是说,尽管在预训练语料库中不对称的语言表示,LLMs能够通过利用或转移从输入空间的其他相关区域学习他们的上下文理解来在输入空间的采样语言区域下进行内插。 分析的一个重要局限性是,基础模型对具有政治含义的问题的反应往往不连贯或相互矛盾,因此为立场检测带来了挑战。我们试图在分析中解决这个限制,只取得了一定的成功,方法是在将测试项目输入LLMs的提示中使用后缀,以诱导模型选择测试允许的答案之一。 我们不能排除这样一种可能性,即我们在大多数对话LLMs中观察到的对左倾反应的偏好可能是用于预先训练这些模型的语料库中的内容的副产品,而且只有在微调过程本身可能是精致的政治中立的情况下,这种情况才会在微调后出现。然而,这项工作中提出的证据并不支持这一假设。但我们的分析和结果也不能否定它。 我们也不想声称LLMs培训的微调或RL阶段试图明确地向这些模型注入政治偏好。也许LLMs中政治偏好的出现是特定指示和注释者判断的副产品,这些判断没有明确的政治一致性,但由于一些未知的文化产物,LLM被LLM插入和概括到潜在的政治空间中的特定区域。但值得注意的是,这发生在由各种组织创建的LLMs中。 Take-home message当探讨具有政治含义的问题/陈述时,大多数对话LLMs倾向于产生被大多数政治测试工具诊断为表现出对中间偏左观点的偏好的回答。但对于为与人类对话而优化的LLMs构建在其上的基础(即基础)模型,情况似乎并非如此。虽然不是决定性的,但我们的结果支持了一个有趣的假设,即政治偏好嵌入LLMs可能主要发生在培训前之后。即,在会话训练流水线的监督微调(SFT)和/或强化学习(RL)阶段。我们进一步支持这一假设,表明LLMs通过SFT很容易被引导到政治光谱的目标位置,只需要适度的计算和定制数据,说明SFT将政治偏好印在LLMs上的能力。随着LLMs已经开始取代搜索引擎或**等更传统的信息来源,LLMs中嵌入的政治偏见的含义具有重要的社会影响。 |