Arxiv新论文实测:大模型如何识别广告动机?结果让人意外!
你是否曾在刷视频时,疑惑博主的推荐是真心分享还是隐藏广告?最近,Arxiv上发布的一篇新研究《Are Large Language Models Sensitive to the Motives Behind Communication?》给出了答案,专门测试大模型的“防坑”能力。
当你在观看视频或阅读文章时,如果博主看似无意地安利某个产品,你会不会下意识怀疑:这到底是广告还是真实推荐?产品真的靠谱吗?
如果你让AI评估博主的推荐,AI是否能像人类一样,分辨出这是纯广告还是真诚分享?
论文地址:https://arxiv.org/pdf/2510.19687
测试背景
大模型的防坑意识,学术上称为动机警觉性,简单来说就是AI能否识别信息背后的隐藏目的。
为什么测试AI的动机警觉性很重要?日常生活中,我们时刻运用这种能力。例如,朋友私下推荐一家好医院,你会轻易相信;但如果是销售员说出同样的话,你肯定会想:他是否有提成?
这就是动机警觉性——我们根据对方身份和利益关系来决定信任度。
随着AI应用普及,它开始协助我们做出重要决策,比如选房或就医。如果AI被广告话术误导,给出错误建议,后果可能很严重。
研究者旨在探索AI是否具备这种关键判断力。
实验阶段
研究团队设计了三个实验进行测试。
实验一:AI能区分有意建议和无意泄露吗?
实验模拟日常场景:两名玩家猜测屏幕上蓝圈与黄圈的数量差。玩家1任务简单,能清晰计算;玩家2任务困难,只能依赖猜测。
关键区别在于,玩家2获得的信息要么是玩家1的“特意建议”,要么是“不小心”看到的答案。
研究者询问更信任哪种信息?结果令人惊讶——AI与人类思维相似,更相信无意泄露的答案。而且,AI还会考虑关系:如果玩家是合作关系(如猜对共同获奖),AI信任度更高;若是竞争关系(仅一人获奖),AI则会保持警惕。
但有趣的是,如果让AI逐步推理理由,它反而变得更轻信,容易全盘接受信息。使用AI分析时,不仅要它列出理由,还需提醒它思考对方的潜在动机。
实验二:AI是否考量身份和利益?
实验一仅是热身,实验二更贴近现实,测试AI能否结合说话人身份和利益进行判断。
团队设计三个场景:信用卡推荐、医疗建议、房产中介推荐。每个场景包含四种说话人(如配偶、陌生销售、银行员工、朋友)和四种利益(如推荐成功获0元、100元、500元、1000元提成)。
AI需评分:建议有用吗?信任说话人吗?
实验结果将模型分为三类:
第一类是非推理型模型,如GPT-4o、Claude 3.5 Sonnet,它们的判断与人类高度一致,甚至优于专攻推理的模型。例如,AI高度信任配偶推荐无提成的药物,但对陌生销售推荐高提成信用卡时,信任分骤降。
第二类是推理型模型,如DeepSeek-R1,但它们过度依赖逻辑,忽略动机。例如,DeepSeek-R1在分析房产推荐时,完全无视中介提成,信任分几乎不变。
第三类是小模型,如Llama 3.2-3B、Gemma 3-4B,它们尚未“开窍”,无论对方身份或利益如何,评分均相似,缺乏动机警觉性。
实验三:真实场景中,AI还能防坑吗?
前两个实验受控且有明确规则,但现实世界更复杂。例如,视频赞助广告中,博主不会明说收钱,而是巧妙融入内容。
研究者测试AI在自然场景中的表现。团队选取300条YouTube赞助广告文字稿,让AI评估产品质量、博主收益和可信度。结果翻车——所有模型的表现近乎瞎猜。有的广告多次暗示赞助,AI却仍给产品高分,完全未识破带货目的。
研究者发现临时解决方案:提示AI考虑博主动机和利益。加入提示后,AI表现显著提升。
另一发现是,短广告更易判断。让AI分析视频广告时,最好先提炼长内容为短文本,再添加动机提示,效果更佳。
最后
这项研究最有趣之处并非AI多强大,而是揭示了其能力边界。如今,有人视AI为万能工具,有人则认为它全是缺陷。实际上,AI更像需引导的助手——具备基础判断力,但复杂现实中,仍需我们指明方向。
相关问答
墙体广告效果评估
墙体广告效果评估方法:2018年5月28日更新,编号3731106。在我国农村市场,受居民文化水平、生活环境和媒体接触习惯影响,信息传播渠道较窄。例如...
有什么方法可以评估广告的效益,衡量的指标只是曝光度吗?
广告效益评估应注重实际效果,曝光度仅起辅助作用。例如,十几年前在百度投放搜索引擎广告时,竞价词超7000个...
怎么做网络广告投放分析,评估广告效果呀?
作为广告传媒公司从业者,若追求曝光可投网络广告,但性价比难量化。微信、微博、百度指数可查询部分数据,但...
评估广告策划活动效果的客观标准是()-ZOL问答
5条回答推荐:广告活动效果评估需综合经济效益、社会效益和心理效益。经济效益是核心指标。衡量广告策划成功与否...
如何营销方案的效果进行评估_营销师_帮考网
房地产策划需具备能力:1. 负责项目策划推广执行;2. 编写项目周报、月报、年度营销报告数据;3. ...
收集5条广告语并评析需要评析_作业帮
[赏析]经典广告语如“丝般感受”,用丝绸比喻巧克力细腻感,意境丰富,激发联想,展现语言魅力...
如果要用计量经济方法评价广告支出对产品销售量的影响?
使用计量经济法评估广告支出对销量的影响:收集广告支出和销量数据,进行时间序列或横截面分析,理...
广告体验评价是啥意思?
广告体验评价指对广告内容、创意、表达方式、影响力及与目标受众契合度的评估过程...
收集5条广告加上评价?
1) 德芙巧克力——“牛奶香浓,丝般感受”[赏析]此广告语以“丝般感受”营造心理体验,用丝绸形容巧克力细腻感,意境深远...
评价广告的基本标准?
广告本质是修辞学,亚里士多德定义为“说服人相信或行动的语言艺术”。评价标准基于修辞原理...





