Life 版 (精华区)
发信人: Muller (胖胖熊~~雨巷, 林中路和山), 信区: other
标 题: 数据挖掘:综述及其应用(2)
发信站: 听涛站 (Fri Feb 2 21:40:39 2001), 转信
KDD定义
从开始到现在,人们给KDD下过很多定义。随着KDD研究的不断深入,人们对KDD的理解越
来越全面,对KDD的定义也不断修改,下面是对KDD的比较公认的一个定义:
KDD是从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的处理 过
程,这种处理过程是一种高级的处理过程。
下面我们对这个定义作详细的解释:
数据:数据是指一个有关事实F的集合(如学生档案数据库中有关学生基本情况的各条记
录),它是用来描述事物有关方面的信息,一般来说这些数据都是准确无误的。
模式:对于集合F中的数据,我们可以用语言L来描述其中数据的特性。表达式E? L,E所
描述的数据是集合F的一个子集FE。只有当表达式E比列举所有FE中元素的描述方法更为
简单时,我们才可称之为模式。如:“如果成绩在81-90之间,则成绩优良”可称为一个
模式,而“如果成绩为81、82、83、84、85、86、87、88、89或90,则成绩优良”就不
能称之为一个模式。
处理过程:KDD是一个多步骤的处理过程,包括数据预处理、模式提取、知识评估及过程
优化。我们说这个过程是非繁琐的,主要是指这个处理过程的大部分阶段是系统自动进
行的而无需人工干涉。
可信:通过KDD从当前数据所发现的模式必须有一定的正确程度,否则KDD就毫无作用。
可以通过新增数据来检验模式的正确性,我们用c表示模式E的可信度
c = C(E,F)
其中 E? L,E所描述的数据集合FE ì F。
新颖:经过KDD提取出的模式必须是新颖的,至少对系统来说应该如此。模式是否新颖可
以通过两个途径来衡量:其一是得到的数据,通过对比当前得到的数据和以前的数据或
期望得到的数据之间的比较来判断该模式的新颖程度;其二是通过其内部所包含的知识
,通过对比发现的模式与已有的模式的关系来判断。通常我们可以用一个函数来表示模
式的新颖程度N(E,F),该函数的返回值是逻辑值或是对模式E的新颖程度的一个判断数值
。
潜在作用:提取出的模式应该是有意义的,这可以通过某些函数的值来衡量。用u表示模
式E的有作用程度,u = U(E,F)。
可被人理解:KDD的一个目标就是将数据库中隐含的模式以容易被人理解的形式表现出来
,从而帮助人们更好地了解数据库中所包含的信息。当然一个模式是否容易被人理解,
这本身就很难衡量,比较常用的方法是对其简单程度进行衡量。我们假定模式E的简单度
(可理解度)s可用函数S(E,F)来衡量。
上面介绍的各种度量函数都只是从不同角度对所发现的模式进行评价,一般为方便起见
,往往采用权值来对所发现的模式进行综合评判。在某些KDD系统中,利用函数来求得模
式E的权值i = I (E,F,C,N,U,S);而在其他一些系统中,通过对求得的模式的不同排序
来表现模式的权值大小。
--
法学院BBS: bbs.law.tsinghua.edu.cn
FTP站: 166.111.104.5
水木摄影板的根据地: ftp://166.111.104.5/incoming
Welcome.
※ 来源:.听涛站 cces.net.[FROM: 匿名天使的家]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:0.872毫秒