机器人与人工智能爱好者论坛
标题:
《数学之美》读书笔记(二)——统计语言模型
[打印本页]
作者:
小猪猪de孤独
时间:
2015-12-21 21:47
标题:
《数学之美》读书笔记(二)——统计语言模型
附件是思维导图版本的笔记,喜欢的可以下载
统计语言模型
All +
All -
统计语言模型
贾里尼克出发点
句子合理
是
出现的概率大
否
出现的概率小
严格的描述
有意义的句子
S
特定序列排列的词
W1,W2,W3,…,Wn
句子长度
n
S在文本中出现的可能性
P(S)
=
P(W1,W2,W3,…,Wn)
=
+
-
P(W1)·P(W2|W1)·P(W3|W1,W2)····P(Wn|W1,W2,···,Wn-1)
词Wn的出现概率取决于它前面的所有词
P(Wn|W1,W2,···,Wn-1)条件概率估算
马尔可夫
方法
马尔可夫假设
假设任意词Wi出现的概率只和它前面的词Wi-1有关
P(S)
=
P(W1)·P(W2|W1)·P(W3|W2)···P(Wi|Wi-1)···P(Wn|Wn-1)
对应
二元模型
P(Wi|Wi-1)
=
P(Wi-1,Wi)/P(Wi-1)
有了大量机读文本
假设语料库大小为#
得到
相对频度
f((Wi-1,Wi))
=
#(Wi-1,wi)/#
f(Wi-1)
=
#(Wi-1)/#
根据大数定理
统计量足够
相对频率就等于概率
P(Wi-1,Wi)
≈
#(Wi-1,wi)/#
P(Wi-1)
≈
#(Wi-1)/#
≈
#(Wi-1,wi)/#(Wi-1)
初衷
解决
语音识别问题
统计语言模型.pdf
2015-12-21 21:47 上传
点击文件名下载附件
下载积分: 金钱 -1
98.75 KB, 下载次数: 4, 下载积分: 金钱 -1
欢迎光临 机器人与人工智能爱好者论坛 (http://robot-ai.org/)
Powered by Discuz! X3.2