Skip to content

Latest commit

 

History

History
323 lines (245 loc) · 11.5 KB

自然语言处理复习文档.md

File metadata and controls

323 lines (245 loc) · 11.5 KB

自然语言处理复习汇总(南京大学)

标签(空格分隔): 自然语言处理

参考书籍:统计自然语言处理--宗成庆

[TOC] ##统计语言模型

N-Gram

N-1阶马尔可夫链我们称之为N元语言模型 $$P(w_i|w_{i-1})=\dfrac{P(w_{i-1}w_i)}{P(w_{i-1})}=\dfrac{Count(w_{i-1}w_i)}{\sum_wCount(w_{i-1}w)}$$

$Count(w_{i-1}w_i)$由于稀疏性,值可能等于0.从而导致整个句子的概率都等于0

进行平滑处理:

线性平滑:

$$P(w_i|w_{i-1})=\dfrac{P(w_{i-1}w_i)}{P(w_{i-1})}=\dfrac{Count(w_{i-1}w_i)+\alpha}{\sum_w(Count(w_{i-1}w)+\alpha)}$$

laplace 平滑:

$$ P(w_i|w_{i-1})=\dfrac{P(w_{i-1}w_i)}{P(w_{i-1})}=\dfrac{Count(w_{i-1}w_i)+kP(w)}{(\sum_wCount(w_{i-1}w))+k} $$

简单线性插值平滑:

Neural language model

word2vector

##文本分类

朴素贝叶斯模型

D为待分类的文档,$c_k$指第k个类别

$$ argmax_{c_k}P(c_k|D)=argmax_{c_k}\dfrac{P(D|c_k)P(c_k)}{P(D)}=argmax_{c_k}P(D|c_k)P(c_k) $$

####1. Bernoulli document model(伯努利文档模型) 一个文档被表示成01向量.向量中每一个元素表示相应的单词是否在文档中出现了 令$D_i$表示第i个文档的01向量

令$D_it$表示第i个文档的01向量中第t个元素的值,即单词$w_t$是否在文档i中出现了 $P(w_t|c_k)$表示单词$w_t$在类别$c_k$中出现的文档数的占比. 则 $P(w_t|c_k)=\dfrac{c_k中w_t出现的文档个数}{c_k中所有文档的个数}$

$P(D_{it}|c_k)=D_{it}P(w_t|c_k)+(1-D_{it})(1-P(w_t|c_k))$

$P(D_i|C_k)=\prod_{t=1}^{|V|}P(D_{it}|c_k)$

####2. Multinomial document model 一个文档被表示成整数向量.向量中每一个元素表示相应的单词在文档中出现了多少次

令$D_i$表示第i个文档的向量

令$D_{it}$表示第i个文档的向量中第t个元素的值

$P(w_t|c_k)$表示单词$w_t$在类别$c_k$中出现的文档数的占比.

###训练句向量 一般来讲每一个类别$c_k$也可以看成一个向量,记为$f(c_k)$。

文本$D_i$也表示成向量$w$。

训练句向量也就是训练打分模型$score(w,f(c_k))$

可以根据这个设计各种loss函数。用SVM的loss函数训练

##文本或句子向量化 ###词袋模型 0-1向量

N-Gram Bag-of-Words

Vocab = set of all n-grams in corpus

Document = n-grams in document w.r.t vocab with multiplicity

For bigram:

Sentence 1: "The cat sat on the hat"

Sentence 2: "The dog ate the cat and the hat”

Vocab = { the cat, cat sat, sat on, on the, the hat, the dog, dog ate, ate the, cat and, and the}

Sentence 1: { 1, 1, 1, 1, 1, 0, 0, 0, 0, 0}

Sentence 2 : { 1, 0, 0, 0, 0, 1, 1, 1, 1, 1}

###TF-IDF ####TF(词频) $$ 词频(TF)=\dfrac{某个词在文章中的出现次数}{文章中出现最多词的个数} $$ ####IDF(逆文档频率) $$ 逆文档频率(IDF)=\log \dfrac{语料库的文档总数}{包含该词的文档数+1} $$ ###特征过滤

  • 停用词
  • 基于文档频率(DF)的特征提取法 从训练预料中统计出包含某个特征的文档的频率(个数),然后根据设定的阈值,当该特征项的DF值小于某个阈值时,从特征空间中去掉该特征项,因为该特征项使文档出现的频率太低,没有代表性;当该特征项的DF值大于另外一个阈值时,从特征空间中也去掉该特征项,因为该特征项使文档出现的频率太高,没有区分度
  • 信息增益法 信息增益(IG)法依据某特征项$t_i$为整个分类所能提供的信息量多少来衡量该特征项的重要程度,从而决定对该特征项的取舍。某个特征项$t_i$的信息增益是指有该特征或没有该特征时,为整个分类所能提供的信息量的差别,其中,信息量的多少由熵来衡量。因此,信息增益即不考虑任何特征时文档的熵和考虑该特征后文档的熵的差值: $$ \begin{aligned} Gain(t_i) &=Entropy(S)-Expected\ Entropy(S_{t_i})\ &={-\sum_{j=1}^MP(C_j)\cdot\log P(C_j)}-{ P(t_i)\cdot[-\sum_{j=1}^{M}P(C_j|t_i)\cdot\log P(C_j|t_i)]\ &\ \ \ +P(\bar{t_i})\cdot[-\sum_{j=1}^{M}P(C_j|\bar{t_i})\cdot\log P(C_j|\bar{t_i})]} \end{aligned} $$ 其中$P(C_j)$表示$C_j$类文档在预料中出现的概率,$P(t_i)$表示语料中包含特征项$t_i$的文档的概率,$P(C_j|t_i)$表示文档包含特征项$t_i$时属于$C_j$类的条件概率,$P(\bar{t_i})$表示语料中不包含特征项$t_i$的文档的概率,$P(C_j|\bar{t_i})$表示文档不包含特征项$t_i$时属于$C_j$的条件概率,$M$表示类别数
  • mutual information(互信息法)
  • $X^2$test

###Distributional similarity-based representations

  • LSI
  • First Propose
  • Word2vec
  • Doc2Vec

##词性标注与隐马尔科夫模型 维特比算法和算法

$A$是状态转移概率矩阵

$B$是观测概率矩阵

$\pi$是初始状态概率向量

###隐马尔科夫模型的三个基本问题

  • 概率计算问题。给定模型$\lambda=(A,B,\pi)$和观测序列$O=(o_1,o_2,...,o_T)$,计算在模型$\lambda$下观测序列$O$出现的概率$P(O|\lambda)$
  • 学习问题.已知观测序列$O=(o_1,o_2,...,o_T)$.估计模型$\lambda=(A,B,\pi)$参数,使得在该模型下观测序列概率$P(O|\lambda)$最大.即用极大似然估计的方法估计参数.
  • 预测问题,也称为解码(decoding)问题。已知模型$\lambda=(A,B,\pi)$和观测序列$O=(o_1,o_2,...,o_T)$,求对给定观测序列条件概率$P(I|O)$最大的状态序列$I=(i_1,i_2,...,i_T)$.即给定观测序列,求最有可能的对应的状态序列.

###问题1: 前向算法.

定义前向概率:

给定隐马尔科夫模型$\lambda$,定义到时刻$t$部分观测序列为$o_1,o_2,...,o_t$且状态为$q_i$的概率为前向概率,记作 $$ \alpha_t(i)=P(o_1,o_2,...,o_t,i_t=q_i|\lambda) $$

输入:隐马尔科夫模型$\lambda$,观测序列$O$

输出:观测序列概率$P(O|\lambda)$

(1) 初值

$$\alpha_1(i)=\pi_ib_i(o_1), i=1,2,...,N$$

(2) 递推 对t=1,2,...,T-1

$$\alpha_{t+1}(i)=\left[ \sum_{j=1}^N\alpha_t(j)a_{ji}\right]b_i(o_{t+1}), i=1,2,...N$$

(3) 终止

$$P(O|\lambda)=\sum_{i=1}^{N}\alpha_T(i)$$

(4)最优路径回溯

后向算法:

定义后向概率:

给定隐马尔科夫模型$\lambda$,定义在时刻$t$状态为$q_i$的条件下,从$t+1$到$T$的部分观测序列为$o_{t+1},o_{t+2},...,o_T$的概率为后向概率,记作 $$ \beta_t(i)=P(o_{t+1},o_{t+2},...,o_T|i_t=q_i,\lambda) $$

输入:隐马尔可夫模型$\lambda$,观测序列$O$:

输出:观测序列概率$P(O|\lambda)$

(1)

$$\beta_T(i)=1,i=1,2,...,N$$

(2)对$t=T-1,T-2,...,1$

$$\beta_t(i)=\sum_{j=1}^{N}a_{ij}b_j(o_{t+1})\beta_{t+1}(j),i=1,2...N$$

(3)

$$P(O|\lambda)=\sum_{i=1}^N\pi_ib_i(o_1)\beta_1(i)$$

###问题2 Baum-Welch算法(无监督学习方法)

假设给定训练数据只包含$S$个长度为$T$的观测序列${O_1,O_2,...,O_S}$而没有对应的状态序列,目标是学习隐马尔科夫模型$\lambda=(A,B,\pi)$的参数。我们将观测序列数据看做观测数据$O$,状态序列数据看做不可观测的隐数据$I$,那么隐马尔科夫模型事实上是一个含有隐变量的概率模型 $$ P(O|\lambda)=\sum_IP(O|I,\lambda)P(I|\lambda) $$ 它的参数学习可以由$EM$算法实现

参数估计问题是HMM面临的第三个问题,即给定一个观察序列$O=O_1O_2...O_T$,如何调节模型$u=(A,B,\pi)$的参数,使得$P(O|u)$最大化: $$ arg \underset{u}{max} P(O_{training}|u) $$ 模型的参数是指构成$u$的$\pi_i,a_{ij},b_j(k)$.最大似然估计方法可以作为HMM参数估计的一种选择。如果产生观察序列$O$的状态序列$Q=q_1q_2...q_T$已知,根据最大似然估计,HMM的参数可以通过如下公式计算: $$ \bar{\pi}i=\delta(q_1,s_i) $$ $$ \begin{aligned} \bar{a}{ij}&=\dfrac{Q中从状态q_i转移到q_j的次数}{Q中所有从状态q_i转移到另一状态(包括q_i自身)的次数}\ &=\dfrac{\sum_{t=1}^{T-1}\delta(q_t,s_i)*\delta(q_{t+1},s_j)}{\sum_{t=1}^{T-1}\delta(q_t,s_i)} \end{aligned} $$ $$ \bar{b}_j(k)=\dfrac{Q中从状态q_j输出符号v_k的次数}{Q到达q_j的次数} $$ 但实际上,由于HMM中的状态序列Q是观察不到的(隐变量),因此,这种最大似然估计的方法不可行。所幸的是,期望最大化(expectation maximization,EM)算法可以用于含有隐变量的统计模型的参数最大似然估计。其基本思想是,初始时随机地给模型的参数赋值,该复制遵循模型对参数的限制,例如,从某一状态出发的所有转移概率的和为1。给模型参数赋初值以后,得到模型$u_0$,然后,根据$u_0$可以得到模型中隐变量的期望值。例如,从u_0得到从某一状态转移到另一状态的期望次数,用期望次数来替代上式中的实际次数,这样可以得到模型参数的新估计值,由此得到新的模型$u_1$.从$u_1$又可以得到模型中隐变量的期望值,然后,重新估计模型的参数,执行这个迭代过程,知道参数收敛于最大似然估计值. ###问题3 维特比算法:

其实就是前向算法的变种形式

输入:隐马尔科夫模型$\lambda$,观测序列$O$

输出:最优路径$I^=(i_1^,i_2^,...,i_T^)$

(1) 初值

$$\alpha_1(i)=\pi_ib_i(o_1), i=1,2,...,N$$ $$\psi_1(i)=0$$ (2) 递推 对t=1,2,...,T-1

$$\alpha_{t+1}(i)=\underset{1\le j\le N}{max}\left[ \sum_{j=1}^N\alpha_t(j)a_{ji}\right]b_i(o_{t+1}), i=1,2,...N$$ $$\psi_{t+1}(i)=arg \underset{1\le j\le N}{max}\left[ \sum_{j=1}^N\alpha_t(j)a_{ji}\right], i=1,2,...N$$ (3) 终止

$$P^=\underset{1\le i\le N}{max}\alpha_T(i)$$ $$i_T^=arg \underset{i \le i\le N}{max}\alpha_T(i)$$

##统计语义分析 ###PCFG,概率上下文无关文法 三个基本问题

  • 给定一个句子$W=w_1w_2...w_n$和文法$G$,如何快速计算概率$P(W|G)$
  • 给定一个句子$W=w_1w_2...w_n$和文法$G$,如何选择该句子的最佳结构?即选择句法结构树$t$使其具有最大概率:$argmax_tP(t|W,G)$
  • 给定PCFG G和句子$W=w_1w_2...w_n$,如何调节G的概率参数,使句子的概率最大?即求解$argmax_GP(W|G)$

####问题1: 内向算法和外向算法:

内向算法的基本思想是:利用动态规划算法计算非终结符$A$推导出$W$中子串$w_iw_{i+1}...w_j$的概率$a_{ij}(A)$

有递推公式如下: $$ a_{ii}(A)=P(A->w_i) $$ $$ a_{ij}(A)=\sum_{B,C}\sum_{i\le k\le j-1}P(A->BC)\cdot a_{ik}(B)\cdot a_{(k+1)j}(C) $$ 算法如下:

输入:PCFG G(S)和句子$W=w_1w_2...w_n$

输出:$a_{ij}(A),1\le i \le j\le n$

步1 初始化:$a_{ii}(A)=P(A\rightarrow w_i),1\le i\le n$

步2 归纳计算:$j=1...n,i=1...n-j$,重复下列计算:

$$ a_{i(i+j)}(A)=\sum_{B,C}\sum_{i\le k \le i+j-1}P(A\rightarrow BC)*a_{ik}(B)*a_{(k+1)(i+j)}(C) $$

步3 终结:$P(S\rightarrow w_1w_2...w_n)=a_{1n}(S)$

外向算法的基本思想是:

定义外向变量$\beta_{ij}(A)$为初始非终结符$S$在推导出语句$W=w_1w_2...w_n$的过程中,产生符号串$w_1...w_{i-1}Aw_{j+1}...w_n$的概率

有如下递推公式: $$ \beta_{1n}(A)=\left{ \begin{array}{rcl} 1 & & {A=S}\ 0 & & {A\neq S}\ \end{array} \right. $$ $$ \begin{aligned} % requires amsmath; align* for no eq. number \beta_{ij}(A) & =\sum_{B,C}\sum_{k\gt j}P(B\rightarrow AC)\alpha_{(j+1)k}(C)\beta_{ik}(B) \ & \ \ \ +\sum_{B,C}\sum_{k\lt i}P(B\rightarrow CA)\alpha_{k(i-1)}(C)\beta_{kj}(B)\ \end{aligned} $$ 问题2: 就是将内向算法的递推式取最大 $$ a_{ii}(A)=P(A\rightarrow w_i) $$

$$ a_{ij}(A)=arg\underset{B,C\in N;i\le k\le i+j}{max}P(A\rightarrow BC)\cdot a_{ik}(B)\cdot a_{(k+1)j}(C) $$

然后用变量$\beta_{ij}$记忆子串$w_i...w_j$的维特比句法分析树 $$ \beta_{ij}(A)=arg\underset{B,C\in N;i\le k\le i+j}{max}P(A\rightarrow BC)\cdot a_{ik}(B)\cdot a_{(k+1)j}(C) $$

###Treebank ###Chomsky Normal Form

##统计机器翻译