RNN 序列模型 sequence model

序列模型 sequence model 循环神经网络 RNN

机器学习笔记

发布日期: 2020-06-25

更新日期: 2023-01-17

文章字数: 595

阅读时长: 2 分

阅读次数:

Sequence model

概述：处理样本数不规则的模型

-w769

recurrent neural network递归神经网络

参数共享,前->后
样本逐个扫描
a激活用一套参数
y激活用一套参数
-w777

参数流

-w731

x、y个数不一致的RNN

序列样本分类问题
-w775
音乐生成、机器翻译
-w774

RNN类型总结

-w765

language model with RNN

输出P(sentence),并按照y(i)展开为字符串
-w774

从训练模型采样

-w776

在训练过程中，结局梯度爆炸
gradient clipping：梯度过大时，重新缩放梯度向量

GRU gated recurrent unit

解决了梯度爆炸问题
新建c^{} = a^{}

c的估计值
$\tilde C^{} = tanh(w_c[c^{},x^{}]+b_c)$

Gata，门限值，0 or 1，选择是否记忆
$\Gamma_u = \sigma(w_u[c^{},x^{}]+b_u)$$

c的实际值更新函数
$c^{} = \Gamma_u * \tilde c ^{} + (1-\Gamma_u) c^{}$

GRU单元

-w545

LSTM （Long Short Term Memory）

-w712

-w788

Bidirectional双向 RNN BRNN

-w782

Deep RNN

-w790

word representation

只用 one-hot，无法表征单词之间的关系
点积为0
构建词向量 word vec
-w647

-w668

man - women
king - queen

词向量库 E 泛化negligible不错
-w669

相似度函数
-w672

-w670
应对大词典的softmax运算慢问题，构建二叉树数据结构，常用的放上面，不用每次计算概率
-w656

平衡P(t|c),避免the of 等词频繁运算出现

负采样法Negative sampling

-w654

Glove global vectors for word representation

情感分类sentiment classification

问题描述：
-w658

平均数词向量分类

-w660

-w660

词编码向量的偏差消除
-w659

变输入输出架构

主要应用在语言识别和机器翻译

架构：编码器 + 解码器各用了一个
-w493

Beam search

对于翻译算法来说，一次得到整个句子的最优概率对应翻译，搜索量太大，而贪心算法，每次只选一个，随机误差太大，效果差，因此引入Beam search 算法
每次考虑2步，第一步选B个，第二部全选n个，从B x n个中寻优

概率估计值数值稳定性

概率$\in [0,1]$，连乘，数值稳定性差
转化为log函数求和，越加越小
平均值，比求和好
用$\frac{1}{T_y^\alpha}$

Error analysis

-w702

注意力集中 Attention model intution

长序列模型的问题

without 注意力模型，$y^{}$ 取决于 $a^{}$
带有注意力的系统，将权重，分散给其他的几个激活值$a^{}$

注意力权重计算

用softmax保证和为1
-w703

语音识别

声音预处理，频谱
-w700

-w700

Tolshao

https://blog.tolshao.xyz/posts/sequence-model/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 Tolshao !

序列模型 sequence model 循环神经网络 RNN

评论

上一篇

机器学习-Coursera笔记

机器学习-Coursera笔记

Coursera网站Andrew Ng的ML课程笔记

2020-06-28 机器学习笔记

机器学习 ML Coursera

下一篇

科学写作

追求效率至上，知道怎么做，比早点出发更重要

2020-05-03 笔记

科学写作 Paper