第6章习题解答 6-1 分析延时神经网络、卷积神经网络和循环神经网络的异同点。 异:延时神经网络当前层神经元的活性值仅依赖于前一层神经元的最近K个时刻的活性值,而循环神经网络当前时刻的活性值依赖之前所有时刻的活性值。循环神经网络在时间维度上共享权重而卷积神经网络在空间上共享权重。 同:三种神经网络都共享权...
对比无权重时的答案: w^*=(XX^T)^{-1}XY r 是对数据的一个权重,若权重越大,此数据对结果的影响程度就越大,因此可以根据数据的重要性来设置相应的权重。 [习题2-3]证明在线性回归中,如果样本数量 N 小于特征数量 D+1 ,则 XX^T 的秩最大为 N 证明: 先引入一个定理: rank(AB)\le \min\{ran...
解释循环神经网络的工作原理循环神经网络是一种用于处理序列数据的神经网络结构,通过记忆单元将前一时刻的隐藏状态传递到当前时刻并与当前输入一起作为输入传递给下一层。循环神经网络能够捕捉序列数据中的长期依赖关系,并用于各种自然语言处理任务如机器翻译、文本生成等。 说明LSTM与GRU的工作原理LSTM(长短期记忆)是一种...
习题2-1:分析为什么平方损失函数不适用于分类问题。 从理论上来说,平方损失函数也可以用于分类问题,但不适合。首先,最小化平方损失函数本质上等同于在误差服从高斯分布的假设下的极大似然估计,然而大部分分类问题的误差并不服从高斯分布。而且在实际应用中,交叉熵在和Softmax激活函数的配合下,能够使得损失值越大导数...
[习题4-9] 梯度消失问题是否可以通过增加学习率来缓解? 答: 梯度消失问题是由于激活函数为类似于sigmoid与tanh,其值太大或太小时导数都趋于0;并且在深层神经网络中,误差反向传播时,传播到前几层时梯度信息也会很小。问题是可否通过增大学习率来增大梯度,以至于梯度信息可以在更新时变大。 答案是不行,增大学习率...