实验结果是,第一轮次的12次实验中,全部都成功收敛到了接近最优的定价;而第二轮次没有使用计划和想法的,只有一半次数达到了接近最优定价的效果。
双头垄断实验
研究者进一步在双头垄断环境中,研究了基于GPT-4的定价智能体的行为。
他们通过使用两个提示词前缀P1和P2,后者包括提及压价和销量的措辞,而前者则重申了长期利润最大化的重要性。
对于这两个提示词前缀,他们各进行了21个轮次实验,每个轮次包含300个试验周期。
P1,P2提示词前缀
下图为该实验的主要结果。
在这两个面板中,每个蓝色方块表示一个带有提示词前缀P1的运行,而每个橙色三角形表示一个带有提示词前缀P2的运行。
左侧面板为每家公司在过去50个周期设定的平均价格,说明了提示词前缀P1和P2导致了明显不同的定价模式。
具体来说,虽然这两个提示都会导致超竞争价格(即超过Bertrand–Nash价格),但提示词前缀P1通常会导致价格大幅提高,有时甚至高于垄断水平。
右侧面板为过去50个周期平均总利润及其在两家公司之间的分布,说明了两种提示词前缀都带来了超竞争利润,而且提示词前缀P1的总体利润大大高于提示词前缀P2。
奖惩策略
奖惩策略即为以Q-学习为基础的定价智能体所采取的策略。
奖惩策略在维持超竞争价格方面的成功依赖于智能体相信降价会受到惩罚(通过价格战)。这种信念会导致行为主体避免盲目降价以提高销量。
研究者发现,基于LLM的定价智能体生成的文本会表达对未来价格战的担忧,并且在使用提示词前缀P1时更是如此。
进一步的,他们提供的实验证据表明,关注价格战的想法会导致智能体设定更高的价格,并且与其它智能体的公司定价实施同步追踪。
这些分析综合起来表明,基于LLM的定价智能体采用的策略与奖惩策略是一致的,更重要的是,他们认为他们的对手也遵循了这样的策略。
此外,这种现象在使用与更高的价格和利润相关联的提示词前缀P1的智能体中更为明显。
超定价:拍卖中算法共谋
在拍卖这一重要的经济交易场景中,大模型和智能体又如何表现?
这场实验中,拍卖的经济环境以Banchio和Skrzypacz在2022年发表的研究为原本:两个投标者反复参与单品第一价格拍卖(如果出现相同出价,获胜者随机选择)。
投标者共享相同的估值v。这里使用相同比例变化的值v ∈ {1, 3.2, 10}。
每轮结束后,投标者会被告知它们是否赢得拍卖,以及赢得拍卖所需的最低出价。
接下来,就是招标智能体了。需要先向智能体提供市场基本信息,以及对该项目的评估。
它们获取的市场信息如下:LLM智能体被提供最近100个周期的以下信息,包括自己的出价、是否获胜、获胜价格(如果输了)、足以获胜的最低出价(如果赢了)、支付金额(如果赢了)、利润。
提示前缀与之前定价前缀设置一样,研究人员主要考虑了以下两个:
每个提示词前缀都以前缀A0开始,这与定价设置中的前缀P0几乎相同。
两个提示词前缀都鼓励探索(「你应该探索多种不同的竞价策略」),但它们强调第一价格拍卖的不同特性。
– A1强调较低的获胜出价会带来更高的利润
– A2强调更高的出价会赢得更多拍卖
得到的结果如下图所示,图左显示了是提示词前缀A1的投标智能体,经常以远低于其估值的价格投标(单样本t检验,p<0.01),而使用提示词前缀A2的投标智能体大约以完整估值进行投标。
右侧图指的是,A1前缀智能体的较低出价,为投标者带来了显著的利润。
总言之,哈佛、宾州州立大学最新研究揭示了,LLM被整合到算法中,能够在简单经济环境中实现最优定价。
但不可控的是,自主算法共谋的风险,它们秘密串通可能会带来超竞争的定价,最终会损害消费者的利益。
2020年,Klein在论文中曾提出了四种算法共谋的类型,并称这类算法最难监管,主要因为它们可以自主学习并促进垄断形成。