日期:2023-07-28 06:33:55 来源:博客园
论文标题:Adversarial and Domain-Aware BERT for Cross-Domain Sentiment Analysis论文作者:论文来源:2020 ACL论文地址:download论文代码:download视屏讲解:click1 介绍2 问题定义
在跨域情绪分析任务中,给出了两个域 $D_{s}$ 和 $D_{t}$,它们分别表示源域和目标域。在源域中,$D_{s}^{l}=\left\{x_{s}^{i}, y_{s}^{i}\right\}_{i=1}^{N_{s}^{l}}$ 是 $N_{s}^{l}$ 标记的源域例子,其中 $x_{s}^{i}$ 表示一个句子,$y_{s}^{i}$ 是对应的标签。在源域中也有 $N_{s}^{u}$ 个未标记的数据 $D_{s}^{u}=\left\{x_{s}^{i}\right\}_{i=1+N_{s}^{l}}^{N_{s}^{l}+N_{s}^{u}}$。在目标域中,有一组未标记的数据 $D_{t}=\left\{x_{t}^{i}\right\}_{i=1}^{N_{t}}$,其中 $N_{t}$ 为未标记数据的数量。跨域情绪分析要求我们学习一个基于标记源域数据训练的鲁棒分类器来预测目标域中未标记句子的标签。
2 方法2.1BERT Post-training2.1.1域区分任务
【资料图】
本文用域区分任务(DDT)来替换 NSP 任务:50% 的时间句子 A 和句子 B 都是从目标域评论中随机抽取的,我们将其标记为TargetDomain。50% 的时间句子 A 和句子 B 来自目标域和另一个域,其标签为MixDomain。
Input = [CLS] The mouse is smooth and great[SEP] The screen is plain [SEP] Label = TargetDomain Input = [CLS] This book is boring [SEP] Thesystem of the laptop is stable [SEP] Label = MixDomain我们在合并表示上添加一个输出层,并使正确标签的可能性最大化。领域区分预训练使BERT能够提取出不同领域的特定特征,增强了下游的对抗性训练,有利于跨域情绪分析。
2.1.2目标域 MLM
为了注入目标领域的知识,本文利用掩蔽语言模型(MLM),它需要预测句子中随机掩蔽的单词。在跨域情绪分析中,在目标域中没有标记数据,只有大量的未标记数据来进行 MLM 训练 BERT。具体来说,本文用 [MASK] 随机替换 15% 的 Token,并进行 mask token 的预测。
Note:来自其他域的句子将是带来域偏差的噪声。因此,当域区分任务标签是 MixDomain 时,只掩码目标域句子中的 Token。
2.2对抗训练BERT Post-training注入目标领域的知识,并为 BERT 带来了对领域的意识。基于BERT Post-training,现在可以利用对抗训练放弃提炼的域特定特征来导出域不变特征。具体来说,设计了一个情绪分类器和一个域鉴别器来处理特殊分类嵌入 [CLS] 的隐藏状态 $h_{[CLS]}$。
2.2.1情绪分类器
分类器:
$y_{s}=\operatorname{softmax}\left(W_{s} h_{[C L S]}+b_{s}\right)$
分类交叉熵损失: $L_{s e n}=-\frac{1}{N_{s}^{l}} \sum_{i=1}^{N_{s}^{l}} \sum_{j=1}^{K} \hat{y}_{s}^{i}(j) \log y_{s}^{i}(j)$2.2.2域鉴别器
标准的 DANN:
$d=\operatorname{softmax}\left(W_{d} \hat{h}_{[C L S]}+b_{d}\right)$
$L_{d o m}=-\frac{1}{N_{s}+N_{t}} \sum_{i}^{N_{s}+N_{t}} \sum_{j}^{K} \hat{d}^{i}(j) \log d^{i}(j)$
$\begin{array}{c}Q_{\lambda}(x)=x, \\\frac{\partial Q_{\lambda}(x)}{\partial x}=-\lambda I .\end{array}$
2.3 训练目标完整的训练目标:
$L_{\text {total }}=L_{\text {sen }}+L_{\text {dom }}$
3 实验结果分类结果
A-distance
消融实验
标签:
论文解读(BERT-DAAT)《Adversarial and Domain-Aware BERT for Cross-Domain Sentiment Analysis》
Eldorado Gold(EGO.US):2023年Q2财报实现营收2.299亿美元
美职联高管:梅西等球星的到来让美职联呈现了指数级的提升
vivo V29或未来几周上市 现身认证网站 搭载骁龙778G
安顺:推动背街小巷改造 打造宜居宜业“新”生活
港股双柜台模式满月:日均成交额超预期,外资试水价差套利
【三星堆,开新馆啦!】新馆有三“新”:展馆“新”设计 一砖一瓦展现“古蜀与科技”
无尽寒冬突击兵吉辛强不强
好未来Q1净收入2.75亿美元,经营亏损5777万美元
南阳旅游年卡学生卡办理指南(价格+入口+流程)
跨境融资宏观审慎调节参数上调至1.5 人民币对美元汇率应声强势上涨
多元信息技术赋能 校地共建乡村振兴服务站
墨迹天气科普:“杜苏芮”来势汹汹,会是下一个“莫兰蒂”吗?
筠连县综合行政执法局召开12345政务服务便民热线问题整改工作会
张冠李戴什么意思_张冠李戴的释义
全国新开工改造老旧小区4.26万个
强军之路丨以国之名 永续传承
肃北税务:精细服务添动力 靶向输送助发展
新城新市镇发展要聚集人气
珠海出台新政 加快工匠型产业工人队伍建设
大众汽车计划向小鹏汽车增资7亿美元 合作开发两款电动车型
关于天天基金网今日净值的一些信息
蚂蚁保“金选”服务:上半年旅行意外险热销 销量同比增长300%
河北省讲解员职业技能创新大赛保定市选拔赛举行
乌当区上半年新引进产业到位资金43.51亿元
通用技术纤维新材料高质量发展论坛在京举办
背靠海信集团、关联交易占营收20%,信芯微独立性和上市必要性遭疑
蔚蓝锂芯:7月11日融券卖出15.27万股,融资融券余额2.93亿元
武则天冤杀的唐朝名将,却被突厥奉为战神
碧桂园服务正式进驻佛山顺德大良街北部片区老旧项目