1.前言 关于BERT,张俊林博士有一篇特别好的文章:从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 非常透彻地讲解了Bert是怎么样从NNLM->Word2Vec->ELMO->GPT->BERT一步……