BERT 家族大全解——RoBERTa, DeBERTa

本文将对 BERT 及其变种模型进行全面的介绍和分析,包括 RoBERTa、DeBERTa、BART 等,希望能够为读者提供一个清晰的概览和参考。

BERT

见:BERT 原理与代码解析

RoBERTa

论文:RoBERTa: A Robustly Optimized BERT Pretraining Approach (arxiv.org)

改进点:

动态掩码

BERT 在预训练时对数据进行 mask,一旦处理好便不会再变,这便是静态掩码。RoBERTa 所谓的动态掩码就是每次输入时都随机进行 mask,这样,在大量数据不断输入的过程中,模型会逐渐适应不同的掩码策略,学习不同的语言表征。

移除 NSP 任务

作者对比了四种输入模式:

实验结果:

DeBERTa:具有解码增强和注意力解耦的 BERT

参考