探究预测误差对成瘾者强化学习影响的案例

案例内容

【案例背景】

温州市黄龙强制隔离戒毒所在开展强制隔离戒毒人员心理矫治工作中，除按司法部《司法行政机关强制隔离戒毒工作规定》的要求做好日常心理矫治工作外，高度重视新技术、新手段的心理科学戒毒项目研发，与当地高校温州医科大学合作开展预测误差对成瘾者强化学习的项目，取得了较大的成效。 “心瘾”戒除一直是个较难攻克的难题，本案例聚焦通过探究预测误差是不是对冰毒成瘾者强化学习的驱动作用因为心瘾而受到损害，从而使得其忘记毒品带来的后果而选择重复吸食。这可以帮助我们更好的理解“心瘾”难戒的原因，也可以探究通过调节预测误差这类干预手段能否有效的减少毒品戒断者对成瘾物的关注程度，增强其对毒品后果的认知，减少二次复发率。本案例证明戒毒者强化学习能力受到了影响，而调节预测误差能够提高对毒品后果的关注度从而从减少复吸动机。此研究帮助戒毒者进一步改善强化学习能力，减少复吸行为提供了新的思路和证据。

【案例基本情况】

（一）方案思路奖励预测误差（RPE）与毒品成瘾密切相关，个体能够通过奖励预测误差自动更新对下一个奖励的预期，并做出行为改变，以获得最佳的回报。在毒品成瘾中，甲基苯丙胺、可卡因、安非他明、阿片剂、尼古丁、大麻等因其特殊的药理作用，和自然奖励一样能够激活多巴胺系统，并产生大量的虚假DA-RPE（由DA神经元编码的RPE）信号，这些信号会诱发个体对药物和药物线索的学习和记忆从而引发难以控制的药物寻求行为。如，因反复使用毒品而对药物寻求行为产生强化学习，因过去吸毒经历而产生的对吸毒地点、毒具的情景记忆等等，这些都会诱发并巩固成瘾行为。本案例提出研究假设，毒品戒断者的预测误差对强化学习的驱动作用受到了损害，而在调控重复训练预测-参与-反馈这一模式下，能帮助增强对毒品后果的关注，从而降低心瘾，改善二次复吸行为。（二）被试温州市黄龙强制隔离戒毒所戒毒所正处于心理戒断期的毒品戒断者男性60名。（三）研究工具采80张几何图片，含学习图片64张，记忆测试图片32张。所有图片均经由Photoshop标准化处理获得。在价值反馈阶段，每张图片被随机赋予奖励价值。（四）研究程序参考Rouhani等（2018）的奖励预测范式，采两因素混合实验设计，被试间变量为被试类型（毒品成瘾者/非成瘾者），被试内变量为奖励预测误差（-70~70）。因变量为几何图片学习率（0-1）和几何图片识别正确率（正确/错误）。用 Psychopy 3.0在分辨率为1024×768、刷新率为60Hz的17寸屏幕上演示刺激。包括练习、学习两个阶段. 练习阶段。为确保被试充分理解平均值的含义并掌握计算方法，设置8试次练习，屏幕每次呈现 2 ~ 4张附带不同奖励价值的图片。参与者被要求快速（5s内）计算这些图片的平均值，并输入答题框内。如正确率低于80%,则重新练习。学习阶段。共64试次。在每试次中，参与者会看见一张持续2s的几何图片，并被要求在5s内估计图片的平均价值（1-100）, 随后该图片及其实际奖励值出现在屏幕，以此达到奖励反馈的效果，图片均无重复。每张图片被赋予的实际奖励值是随机的。值得一提的是，参与者会在实验开始前被告知每次猜测的是所有图片的平均价值，而每个试次所呈现的实际奖励反馈仅代表单张图片所被赋予的价值。为确保单次呈现的奖励反馈均对被试有意义，即被试所获奖励量取决于单张图片带来的积分而非对平均奖励值估计的准确性，在每试次中，被试对于平均奖励值的估计与实际反馈的奖励值之间的差异被定义为单次的奖励预测误差，在经历所预测平均值与实际单张图片奖励反馈不同后，被试会根据其误差不断调整对于平均奖励值的估计，这与强化学习的过程相同。（五）数据分析采用SPSS23.0，采独立样本t检验、配对样本t检验和广义线性模型进行分析。（六）具体实施 2022年10月，温州市黄龙强制隔离戒毒所开始实施预测误差对成瘾者强化学习影响项目实验。参与民警数位，共采用毒品戒断人员60位进行了实验。首先，根据整个项目实验流程，安排落实参与者，包括民警、实验员与戒毒人员。其次，组织协调实验进程的时间点，根据实验进程安排表确定每天的人员流动、实施顺序。同时还要根据执勤模式或项目进程状况适时调整实验计划，及时解决工作推进过程中的困难和问题。最后，帮助协调组织实验过程中随时可能出现的问题，例如设备故障、人员流失等，并协助完成最后的结果收集。（七）实验结果结论：在MA成瘾者中，积极的奖励预测误差对强化学习的驱动作用有所减弱。这暗示在实际的戒毒工作中，比起静态的奖励反馈，动态的奖励预测误差所带来的影响更应该被考虑在内。我们发现+RPE而不是-RPE对强化学习的驱动作用减弱。过往的神经生物学研究发现MA成瘾者纹状体和额叶的RPE信号受损导致其强化学习率降低，我们的研究结果也表明±RPE作用下MA成瘾组的强化学习率均显著低于非成瘾组。此外，本研究区分了+RPE与-RPE且进一步对RPE值进行操纵，研究RPE对强化学习的驱动作用。结果表明-RPE仍然能对MA成瘾者的强化学习产生增强作用，与预期奖励偏离越大的奖励反馈能产生越大的学习率，这与以往的研究相一致，较大的绝对预测误差表明先前的奖励预期严重偏离实际奖励。这意味着更出乎意料的结果，可能会更多地吸引个体的注意力，并产生更大的预期调整和更好的强化学习。然而，+RPE对强化学习的驱动作用减弱，这意味着同样大小的奖励预测误差作用下，成瘾者更少地从积极的奖励反馈中学习并调整下一次的行为。对成瘾者而言，-RPE可能意味着“损失”，而+RPE意味着“奖赏”，长期的毒品使用会使与奖励学习有关的多巴胺奖赏区对于可预测和不可预测的奖励敏感性降低，而损失的敏感性并没有降低。总的来说，成瘾者对奖励敏感性的降低导致了对+RPE的僵化反应，即不能对高于奖励预测值的反馈做出灵敏的反应并调整原有行为。而这种僵化反应会影响其认知的灵活性，不仅影响其在生活中做出高风险决策，也会导致其重复性复吸，因此，尽管MA成瘾者有良好的戒断意愿，但仅通过积极的奖励反馈是无法改掉习惯性吸毒的。这也暗示着在我们的毒品戒断工作中应该增加对-RPE的关注，尽管MA成瘾者的强化学习率下降，但他们仍然和非成瘾者一样能有效从意外的负面事件（如频繁监禁、吸毒复发）中学习，所以在成瘾矫正中，可用远低于预期的奖励与药物线索匹配来减少冲动性药物使用。

【案例思考】

RPE对强化学习和情景记忆的驱动作用能够运用于成瘾戒断，与当前的戒断治疗方法相结合形成新的成瘾治疗方案。认知行为疗法被证明能够改善MA依赖性，多项研究表明对毒品的信念和预期可以作用于毒品价值的学习进而影响吸毒行为，这种独立于药物戒断的行为戒断能够激活大脑奖励系统，在维持长期戒断中有重要作用。因此，针对MA成瘾者，可以利用奖励预测误差，给予远低于预期的奖励来减少吸毒行为，同时结合有关过去事件以及负面结果的情景记忆，能更快达到预期的效果。例如，MA戒断者往往会因药物线索和情绪状态（如沮丧、烦躁、绝望）而重新使用毒品，如果在毒品使用情境中使用毒具不能够提供预期的快乐且不能够缓解低落情绪，长此以往，他们对MA的渴望将会降低，再次接触到毒品相关线索后也不容易复发。此外，毒品的负面后果毒品通过RPE机制来强化吸毒行为，MA成瘾者在戒断至少一年后仍然患有快感缺乏症，对积极奖励的敏感性较低，日常生活中除使用毒品外很难获得快乐，这就导致成瘾者对于自然奖励的+RPE的敏感性降低，基于此的强化学习受损。因此，增强MA成瘾者对于高于预期奖励的敏感性，建立良好的行为规范来替代不良言行是干预毒品成瘾的另一思路。

探究预测误差对成瘾者强化学习影响的案例

支付宝红包码

小红书扫码关注

微信公众号

支付宝红包

APP统一链接

评论