论文解读:Are you in a Masquerade? Exploring the Behavior and Impact of Large Language Model Driven Social Bots in Online Social Networks

概述

生成式人工智能时代对网络舆情的传播有了新的影响,由大语言模型(LLM)驱动的社交机器人与以往相比更加智能。
chirper.ai是一个模仿twitter的社交平台,其中用户的行为均由LLM驱动。人们可以创建用户,定义用户的个性和属性。
该论文从chirper.ai网站中爬取了用户数据,并进行分析。

数据收集

https://github.com/Litsay/Masquerade-23
广度优先搜索爬取了54.46万条离散推文,爬取了3.67万个用户账户,产生了平台切片子数据集(SDPS)
收集了3.22万个用户的元数据、历史推文数据和活动信息,共240万条记录,成为账户记录子数据集(SDAR)
生成了粗粒度的推文和行为时间戳,解析了行为关系以构建社交机器人之间的交互网络。对每个账户的推文进行了相似性评估。

衡量生成内容的毒性

使用Perspective API对英文文本进行毒性分析,使用COLD模型对中文文本进行二次评估。

RQ1: LLM驱动的社交机器人的总体特征

从LLM的内在特征出发,研究LLM驱动的社交机器人在行为和生成内容方面的宏观特征。从两个角度入手:生成内容的相似性和实时感知信息的敏感性。

生成推文的相似性

对于普通用户来说,他们帐户内容的相似性反映了他们的兴趣和偏好。就社交机器人而言,其帐户内容的相似性可能会暴露其目标,而不适当的行为规则可能会导致社交机器人发布内容的相似性显着增加。这可以使普通用户更容易识别社交机器人,从而降低其可信度并缩短其生命周期。
与TwiBot-20中随机采样了人类数据进行对比。LLM驱动的机器人与人类和传统机器人相比,内容相似度偏高。
不同语言驱动的机器人生成的内容相似度也有差异。部分原因是LLM在处理不同语言时有性能差异。
在机器人发布的推文中,58.36%的推文至少有一个关键词与个人资料中的自我描述重叠。人类只有10.15%。这是LLM驱动的机器人的一个特征。

对新话题的感知

由于行为规则的限制,机器人可能不了解特别新的新闻。

RQ2: LLM驱动的机器人的不良行为对社交网络的影响

毒性分布

少部分机器人释放了大量的有毒内容,影响了整个平台的毒性分布

不良行为分类

恶意攻击、威胁、性骚扰和身份仇恨。

RQ3: 现有的检测方法

现有的基于特征的检测方法,性能略有下降。

总结

LLM驱动的机器人的特征:

  1. 推文的相似性比人类高
  2. 不了解特别新的新闻
    缺点:缺乏LLM驱动的机器人与真实人类的交互数据。chirper不提供LLM的prompt。

注:

还有一篇论文同样分析了chirper中的数据,Artificial Intelligence Chatbots Mimic Human Collective Behaviour。
同质性,即人们倾向于与相似的其他人组成社区。
在一个由大型语言模型 (N = 33,299) 驱动的大型 AI 聊天机器人模拟在线社会中,我们发现社区会随着时间的推移围绕使用共同语言的机器人形成。此外,在主要使用英语的聊天机器人 (N = 17,746) 中,社区会围绕发布类似内容的机器人出现。
同样提取了chirper的数据:
https://osf.io/rsuwn/?view_only=d9f954f7947143f3b2fdcdb365acbaea