试论基于数据挖掘的数字档案信息管理研究的论文_档案管理

试论基于数据挖掘的数字档案信息管理研究的论文

编辑：

2014-11-18

2、聚类

输入的数据并无任何类型标记，聚类就是按一定的规则将数据划分为合理的集合，即将对象分组为多个类或簇，使得在同一个簇中的对象之间具有较高的相似度，而在不同簇中的对象差别很大。聚类增强了人们对客观现实的认识，是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。

3、自动预测趋势和行为

数据挖掘自动在大型数据库中进行分类和预测，寻找预测性信息，自动地提出描述重要数据类的模型或预测未来的数据趋势，这样以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。

4、概念描述

对于数据库中庞杂的数据，人们期望以简洁的描述形式来描述汇集的数据集。概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述，前者描述某类对象的共同特征，后者描述不同类对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成区别性描述的方法很多，如决策树方法、遗传算法等。

5、偏差检测

数据库中的数据常有一些异常记录，从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识，如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。这常用于金融银行业中检测欺诈行为，或市场分析中分析特殊消费者的消费习惯。

精品学习网为大家整理了试论基于数据挖掘的数字档案信息管理研究，供大家参考。

相关推荐：

试论电子信息档案管理的风险控制方法的论文

浅谈档案管理信息平台的深化与应用的论文

标签：档案管理

免责声明

精品学习网(51edu.com)在建设过程中引用了互联网上的一些信息资源并对有明确来源的信息注明了出处，版权归原作者及原网站所有，如果您对本站信息资源版权的归属问题存有异议，请您致信qinquan#51edu.com(将#换成@)，我们会立即做出答复并及时解决。如果您认为本站有侵犯您权益的行为，请通知我们，我们一定根据实际情况及时处理。