概率句法分析(probabilistic context-free grammars; PCFG),理学-统计学-人文统计-【基本概念】,在上下文无关文法的基础上对每个规则加以概率限制,从而就可以求出一个句子的特定语法树的概率值的方法。又称概率上下文无关语法。概率句法分析包括:①一个终结符集合。②一个非终结符集合。③一个指定的初始符。④一个规则集合,,为一个终结符或非终结符序列。⑤一个对应的规则概率集合如下:概率句法分析的三个假设:①位置不变性。一棵子树的概率并不依赖于词串中它所支配的词语所处的位置。②上下文无关性。子树的概率与不被子树支配的词无关。③祖先无关性。子树的概率和子树之外的祖先节点无关。概率句法分析的三个基本问题:①给定文法,计算由生成句子的概率,即。②寻找句子的最优句法分析树。③如何从语料库中训练的概率参数,使得最大。经典的概率句法分析实际上是建立在一些非常理想化的独立性假设的基础之上的,而这些假设并不符合实际,于是造成了概率句法分析的实际效果不理想。概率上下文无关语法研究,主要集中在如何突破这些独立性假设。