定义1:一个好的数据集应该既包含目标任务的训练数据,还应该包含可迁移能力的相关训练数据。 那么什么是可迁移能力的相关数据?提到可迁移能力就需要了解一下什么是迁移学习。 迁移学习指的是:我们可以在某个领域(A领域)学习模型训练模型,然后将这些知识在另一个领域(B领域)中应用。 对于ML/DL的数据,每个数据集都有...
三、位置编码 Positional Encoding 由于在机器翻译中,解码过程是一个顺序操作的过程,也就是当解码某个特征向量时,我们只能看到其之前的解码结果,论文中把这种情况下的multi-head attention叫做masked multi-head attention。 由于本文没有使用RNN、CNN结构处理输入,所以需要额外的手段将数据(字符)之间的位置关系引入网络中...
2. 扩展:Diversity is All You Need 同样的计算互信息的手段被用在强化学习中的层次化方法中,最大化 latent 和 skill 之间的互信息,可以参看 Diversity is All You Need (DIYAN) (ICLR 2019): 在该算法中,策略被定义成 \pi(a|s,z) 。与普通的策略相比,多了一个隐变量 z 做为条件。 z 一般从均匀分...
Transformer - 《Attention is All You Need》论文解读 原文链接:https://mp.weixin.qq.com/s/WDq8tUpfiKHNC6y_8pgHoA 谷歌的Transformer模型最早是用于机器翻译任务,当时达到了SOTA效果。Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并行。并且Transformer可以增加到非常深的深度,...
