机器人与人工智能爱好者论坛

标题: 《数学之美》读书笔记（二）——统计语言模型 [打印本页]

作者: 小猪猪de孤独 时间: 2015-12-21 21:47
标题: 《数学之美》读书笔记（二）——统计语言模型
附件是思维导图版本的笔记，喜欢的可以下载统计语言模型 All + All -

统计语言模型

贾里尼克出发点
- 句子合理
  - 是
    - 出现的概率大
  - 否
    - 出现的概率小
- 严格的描述
  - 有意义的句子
    - S
  - 特定序列排列的词
    - W1,W2,W3,…,Wn
  - 句子长度
    - n
  - S在文本中出现的可能性
    - P(S)
      - =
        P(W1,W2,W3,…,Wn)
        =
        + - P(W1)·P(W2|W1)·P(W3|W1,W2)····P(Wn|W1,W2,···,Wn-1)
        词Wn的出现概率取决于它前面的所有词
    - P(Wn|W1,W2,···,Wn-1)条件概率估算
      - 马尔可夫
        方法
        马尔可夫假设
        假设任意词Wi出现的概率只和它前面的词Wi-1有关
        
        P(S)
        =
        P(W1)·P(W2|W1)·P(W3|W2)···P(Wi|Wi-1)···P(Wn|Wn-1)
        对应
        二元模型
    - P(Wi|Wi-1)
      - =
        P(Wi-1,Wi)/P(Wi-1)
        有了大量机读文本
        假设语料库大小为#
        得到
        相对频度
        f((Wi-1,Wi))
        =
        #(Wi-1,wi)/#
        
        f(Wi-1)
        =
        #(Wi-1)/#
        
        根据大数定理
        统计量足够
        相对频率就等于概率
        P(Wi-1,Wi)
        ≈
        #(Wi-1,wi)/#
        
        P(Wi-1)
        ≈
        #(Wi-1)/#
      - ≈
        #(Wi-1,wi)/#(Wi-1)
初衷
- 解决
  - 语音识别问题

统计语言模型.pdf

98.75 KB, 下载次数: 4, 下载积分: 金钱 -1

欢迎光临机器人与人工智能爱好者论坛 (http://robot-ai.org/)

Powered by Discuz! X3.2