概率论模型(Probabilistic Model)

索引

概率论模型是基于概率排序原理,在概率框架中处理信息检索问题。

什么是概率论模型[1]

概率论模型是基于概率排序原理,在概率框架中处理信息检索问题。模型中假设特征项之间是相互独立的,该模型是基于概率原则:给定一个用户查询q和文档集中的一个文档dj,概率模型试图估计用户找到其感兴趣的文档dj的概率,概率模型假设这个相关概率只是依赖于查询和文档表示。进而假设模型在文档集中存在一个子集,它是查询q的结果集。理想结果集记为R,它使得总体的相关概率最大。集合R中的文档被认为是与查询相关的,不在集合R中的文档则被认为是不相关的。

概率论模型基本上是一种基于贝叶斯决策理论的自适应模型。与前两种模型不同的是,它的查询式子不是直接由用户编定的。而是由系统通过某种归纳式学习过程(相关反馈)来构造一个决策函数去表示信息查询。

概率论模型的基础[2]

概率论模型的基础是概率,预估计信息资源与用户需求的相关性,根据相关性大小进行排序,排到最前面的文档将会是最有可能满足用户需求的文档。Van  Rijsbergen和Robertson等人提出的概率检索模型的基本思想是根据先前检索过程中得到的相关性先验信息来计算文档集合中每篇文档成为相关文档的概率,并根据统计理论(如贝叶斯决策等)来确定哪些文档可作为输出文档集。相关工作中,将布尔检索和概率检索模型有机地结合起来,但它在没有获得样本文档之前,无法估计词条相关性且该方法复杂度较大。

概率论模型的基本准则[3]

利用概率论模型的典型系统有Kwok与Robertson等,它们在利用样本计算词权重的过程中考虑了词在文档中出现的频率,其中Kwok系统还考虑了词在整个样本集合中出现的频率。概率论模型的效果要明显优于布尔模型,但比向量空间模型略差。

概率论模型的一个特例是贝叶斯网络,由于该模型适合于超文本系统,因此在超文本信息成为当前信息获取主流信息的情况下,该模型的应用越来越广泛。

参考文献

林培光,康海燕编著.面向Web的个性语义信息检索技术 2009.中国财政经济出版社,2009

高凯,郭立炜,许云峰编著.网络信息检索技术及搜索引擎系统开发.科学出版社,2010

陆建江,张亚非等编著.智能检索技术.科学出版社,2009