Life 版 (精华区)

发信人: Muller (胖胖熊~~雨巷, 林中路和山), 信区: other
标  题: 数据挖掘:综述及其应用(3)
发信站: 听涛站 (Fri Feb  2 21:41:35 2001), 转信

DD的特点
由以上我们可以看出,KDD就是利用机器学习的方法从数据库中提取有价值知识的过程,
是数据库技术和机器学习两个学科的交叉学科。数据库技术侧重于对数据存储处理的高
效率方法的研究,而机器学习则侧重于设计新的方法从数据中提取知识。KDD利用数据库
技术对数据进行前端处理,而利用机器学习方法则从处理后的数据中提取有用的知识。
KDD与其他学科也有很强的联系,如统计学、数学和可视化技术等等。
既然KDD和机器学习都是从数据中提取知识,那么两者有什么区别不同呢?KDD是从现实
世界中存在的一些具体数据中提取知识,这些数据在KDD出现之前早已存在;而机器学习
所使用的数据是专门为机器学习而特别准备的数据,这些数据在现实世界中也许毫无意
义。由于KDD使用的数据来自于实际的数据库,所要处理的数据量可能很大,因此KDD中
的学习算法的效率和可扩充性就显的尤为重要;此外,KDD所处理的数据由于来自于现实
世界,数据的完整性、一致性和正确性都很难保证,如何将这些数据加工成学习算法可
以接收的数据也需要进行深入的研究;再者,KDD可以利用目前数据库技术所取得的研究
成果来加快学习过程,提高学习的效率。最后,由于KDD处理的数据来自于实际的数据库
,而与这些数据库数据有关的还有其他一些背景知识,这些背景知识的合理运用也会提
高学习算法的效率。
在日常的数据库操作中,人们经常使用的是从数据库中抽取数据以生成一定格式的报表
,那么KDD与数据库报表工具有什么区别呢?数据库报表制作工具是将数据库中的某些数
据抽取出来,经过一些数学运算,最终以特定的格式呈现给用户,而KDD则是对数据背后
隐藏的特征和趋势进行分析,最终给出关于数据的总体特征和发展趋势。报表工具也许
能制作出满足下列要求的表格:
上学期考试未通过及成绩优秀的学生的有关情况
但它不能回答下述问题:
考试未通过及成绩优秀的学生在某些方面有些什么不同的特征?
而KDD就可以回答上述问题。
  

--
          法学院BBS: bbs.law.tsinghua.edu.cn
          FTP站: 166.111.104.5
          水木摄影板的根据地: ftp://166.111.104.5/incoming
          Welcome.

※ 来源:.听涛站 cces.net.[FROM: 匿名天使的家]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:1.271毫秒