Life 版 (精华区)
发信人: Muller (胖胖熊~~雨巷, 林中路和山), 信区: other
标 题: 数据挖掘采用技术(二):分类
发信站: 听涛站 (Fri Feb 2 21:43:24 2001), 转信
分类在数据开采中是一项非常重要的任务。分类的目的是学会一个分类函数或分类模型
(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。分
类和回归都可用于预测。预测的目的是从利用历史数据纪录中自动推导出对给定数据的
推广描述,从而能对未来数据进行预测。和回归方法不同的是,分类的输出是离散的类
别值,而回归的输出则是连续数值。这里我们将不讨论回归方法。
要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组
构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,除了这些外
,训练样本还有一个类别标记。一个具体样本的形式可为:( v1, v2, ..., vn; c );
其中vi表示字段值,c表示类别。
分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。统计方法包括贝叶
斯法和非参数法(近邻学习或基于事例的学习: Instance-based learning, IBL),对
应的知识表示则为判别函数和原型事例。机器学习方法包括决策树法和规则归纳法,前
者对应的表示为决策树或判别树,后者则有两种:决策表(decision list)和(平行)
产生式规则。神经网络方法主要是BP算法,它的模型表示是前向反馈神经网络模型(由
代表神经元的节点和代表联接权值的边组成的一种体系结构),BP算法本质上是一种非
线性判别函数。另外,最近又兴起了一种新的方法:粗糙集(rough set),其表示是产
生式规则。
不同的分类器有不同的特点。有三种分类器评价或比较尺度:①预测准确度;②计算复
杂度;③模型描述的简洁度。预测准确度是用的最多的一种比较尺度,特别是对于预测
型分类任务,目前公认的方法是10番分层交叉验证法(10-fold stratified cross val
idation)。计算复杂度依赖于具体的实现细节和硬件环境,在KDD中,由于操作对象是
巨量的数据库,因此空间和时间的复杂度问题将是非常重要的一环节。对于描述型的分
类任务,模型描述越简洁越受欢迎;例如,采用规则表示的分类器构造法就更有用,而
神经网络方法产生的结果就难以理解。
另外要注意的是,分类的效果一般和数据的特点有关,有的数据噪声大,有的有缺值,
有的分布稀疏,有的字段或属性间相关性强,有的属性是离散的而有的是连续值或混合
式的。目前普遍认为不存在某种方法能适合于各种特点的数据。
--
法学院BBS: bbs.law.tsinghua.edu.cn
FTP站: 166.111.104.5
水木摄影板的根据地: ftp://166.111.104.5/incoming
Welcome.
※ 来源:.听涛站 cces.net.[FROM: 匿名天使的家]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:0.926毫秒