浅谈首先这件事还要从序列到序列模型(Seq2seq Model)开始说起,最早的序列到序列模型是一个CNN+LSTM。 简单来说就是把CNN把编码端映射成一个固定向量,然后用LSTM一步步解码。 接着一个自然的想法是使用LSTM[1],因为LSTM的 注意力机制MHSA与EMA AttentionMechanism 注意力机制 ci 编码器 注意力机制 pytorch lstm...
动手学深度学习笔记一、BERT1.BERT:把两个结合起来2.BERT的输入表示3.编码器4.预训练任务掩蔽语言模型下一句预测5.整合代码二、用于预训练BERT的数据集1.下载并读取数据集2.生成下一句预测任务的数据3.生成遮蔽语言模型任务的数据4.将文本转换为预训练数据集三、预训练BERT1.预训练2.用BERT表示文本 一、BERT在w...