RNN 序列模型 sequence model


Sequence model

概述:处理样本数不规则的模型

-w769

recurrent neural network递归神经网络

参数共享,前->后
样本逐个扫描
a激活用一套参数
y激活用一套参数
-w777

参数流

-w731

x、y个数不一致的RNN

序列样本分类问题
-w775
音乐生成、机器翻译
-w774

RNN类型总结

-w765

language model with RNN

输出P(sentence),并按照y(i)展开为字符串
-w774

从训练模型采样

-w776

在训练过程中,结局梯度爆炸
gradient clipping:梯度过大时,重新缩放梯度向量

GRU gated recurrent unit

解决了梯度爆炸问题
新建c^{} = a^{}

c的估计值
$\tilde C^{} = tanh(w_c[c^{},x^{}]+b_c)$

Gata,门限值,0 or 1,选择是否记忆
$\Gamma_u = \sigma(w_u[c^{},x^{}]+b_u)$$

c的实际值更新函数
$c^{} = \Gamma_u * \tilde c ^{} + (1-\Gamma_u) c^{}$

  • GRU单元
    -w365

-w545

LSTM (Long Short Term Memory)

-w712

-w788

Bidirectional双向 RNN BRNN

-w782

Deep RNN

-w790

word representation

只用 one-hot,无法表征单词之间的关系
点积为0
构建词向量 word vec
-w647

-w668

man - women
king - queen

词向量库 E 泛化negligible不错
-w669

相似度函数
-w672

-w670
应对大词典的softmax运算慢问题,构建二叉树数据结构,常用的放上面,不用每次计算概率
-w656

平衡P(t|c),避免the of 等 词频繁运算出现

负采样法Negative sampling

-w654

Glove global vectors for word representation

情感分类sentiment classification

问题描述:
-w658

平均数 词向量分类

-w660

-w660

词编码向量的偏差消除
-w659

变输入输出架构

主要应用在语言识别和机器翻译

架构:编码器 + 解码器各用了一个
-w493

对于翻译算法来说,一次得到整个句子的最优概率对应翻译,搜索量太大,而贪心算法,每次只选一个,随机误差太大,效果差,因此引入Beam search 算法
每次考虑2步,第一步选B个,第二部全选n个,从B x n个中寻优

概率估计值数值稳定性

  • 概率$\in [0,1]$,连乘,数值稳定性差
  • 转化为log函数求和,越加越小
  • 平均值,比求和好
  • 用$\frac{1}{T_y^\alpha}$
    -w703

Error analysis

-w702

注意力集中 Attention model intution

  • 长序列模型的问题
    -w703
    without 注意力模型,$y^{}$ 取决于 $a^{}$
    带有注意力的系统,将权重,分散给其他的几个激活值$a^{}$
    -w696

注意力权重计算

用softmax保证和为1
-w703

语音识别

声音预处理,频谱
-w700

-w700


文章作者: Tolshao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Tolshao !
评论
  目录