Life 版 (精华区)

发信人: Muller (胖胖熊~~雨巷, 林中路和山), 信区: other
标  题: KDD在保险业风险评估中的应用
发信站: 听涛站 (Fri Feb  2 21:48:02 2001), 转信


数据挖掘系统在保险风险评估中的应用
 
保险是一项风险业务,保险公司的一个重要工作就是进行风险评估,即对不同风险领域
的鉴定和分析。风险评估对保险公司的正常运作起着致关重要的作用,保费和保单的设
计都需要有比较详细的风险分析。本文讲述了一个利用KDD的方法进行风险分析的实例,
它从过去的保单及其索赔信息出发,利用决策树的方法,寻找保单中风险较大的领域,
从而得出一些实用的风险规则,对保险公司的工作起到了指导作用。
评估一项保险投资组合的效果如何,既需要对该投资组合进行整体分析,又需要进行投
资组合内部的分析。通过整体分析可以得到以前的投资组合是否是赢利的,而投资组合
内部的详细分析可以揭示该投资组合的哪些领域赢利大,而哪些领域损失大。投资组合
内部的分析对一个保险公司来说是很重要的,因为它对于该公司是否既能保持很高的竞
争力,又能保持高赢利,起着致关重要的作用。如果一个公司不知道它的投资组合中的
哪一部分存在很大风险,那么尽管这项投资组合目前暂时是赢利的,但要维持生存下去
是很难的。
投资组合的整体分析可以在总保费和总索赔的基础之上用统计的方法来实现;而其内部
的分析则需要更复杂更精确的方法。
进行投资组合内部分析的一般方法是将该投资组合划分成一些小的风险领域,这些风险
领域由一系列的风险等级来表示,风险等级由意外事故表列出。这种分析方法将每一个
风险等级因素与索赔频率和索赔金额的关系用一个模型来表示,模型的参数用过去已有
的数据(保单索赔等)来估算,参数确定后,就可用该模型来预测将来在不同的风险等
级参数下的索赔频率和索赔金额。由于分析的复杂性,这种方法只能考虑几个参数(索
赔频率,索赔金额等)。
用这种方法,风险等级参数必须是明确的,一个连续的参数就需要将其划分成一些等级
。在分析详细程度和模型的可行性两方面应选择一种平衡。而且,参数之间的相互作用
也被忽略了,因为他们处理起来是很困难的。在有很多参数、很多多值变量的情况下,
这种相互作用是很多的。
风险分析还有其它一些分析方法,它们大都用在保险统计领域中。Siebes将这一问题引
入到数据挖掘领域,利用概率论方法来对风险领域进行研究,将每年的保险赔偿看成是
Bernoulli实验。这项工作导致了保险投资组合类别的相等概率、同一描述思想的发展。
将保险风险分析中一些反复的、交互式的探索性的工作看成是一种KDD过程,利用一些正
规的分析方法,获得这一领域中专家所具有的直觉知识。
一个保险公司投资组合数据库包含用户购买的保单集合。一个保单确保一个标定物的价
值不会失去。当标定物遭到损失或丢失时,根据保单,要进行索赔以作为补偿。一个保
单在一定的时间内有效,保单的有效时间被称为风险期。在任一时间,投资组合数据库
中的保单所对应的风险都是不同的。
保险公司成功的一个关键因素是在设置具有竞争力保费和覆盖风险之间选择一种平衡。
保险市场竞争激烈,设置过高的保费意味着失去市场,而保费过低又会影响公司的赢利
。保费通常是通过对一些主要的因素(如驾驶员的年龄、车辆的类型等)进行多种分析
和直觉判断来确定。由于投资组合的数量很大,分析方法通常是粗略的。
一项投资组合的绩效通常用前些年的数据来评估。这种分析通常由承保人用来预测将来
这项投资组合的绩效,并根据市场的变化和标定物的情况来调整保单等级结果。每年都
要用这种分析来调整来年保费的设置规则。
设置保费有两种极端情况:所有保单都采用同一保费;每一保单根据它自己的具体情况
来单独设置保费。这两种极端情况都是不实用的。然而,一个好的保费设置应该是接近
后者的。保险商较喜欢在设置保费时考虑更多的因素。
数据挖掘就是用来处理大型数据库的,因此它提供了进行保险投资组合数据库分析的环
境。ACSys数据挖掘系统(Williams和Huang 1996)提供了风险分析框架。
ACSys数据挖掘系统利用决策树作为知识发现算法。决策树是利用信息论中的互信息(信
息增益)寻找数据库中具有最大信息量的字段,建立决策树的一个结点,再根据字段的
不同取值建立树的分枝;在每个分枝子集中重复建立树的下层结点和分枝的过程,直到
生成一个完整的决策树。决策树的实现需要包含3种操作:树的生长、树的评估、树的应
用。树的生长阶段通常在一并行体系结构中实现分类-克服策略,在一组训练例的基础
上建立一个完整的决策树;树的评估阶段利用测试例集合来评价生成的树,在这一阶段
,需要对树作出适当的修剪,并选取不同的测试例集合来对树的性能进行测试并进行修
剪;树的应用是将最后生成的树应用于未知的数据。
为进行风险分析,选取索赔金额作为目标属性,其它属性作为独立变量。所有保单被划
分为两类:有索赔的和无索赔的━索赔金被重新分类为1或0,而后利用数据集合来生成
一个完整的决策树。
从生成的决策树中可以建立一个规则基。一个规则基包含一组规则,每一条规则对应决
策树的一条不同路径,这条路径代表它经过节点所表示的条件的一条连接。一条规则例
子如下:
If age<=20
and sex=Male
and insured_amount>=5000
and insured_amount<10000
Then insurance_claimed=1, cost=0, (0, 15)
这条规则表明在给定的条件下,一个保单被索赔。
Graham J. Williams 和Zhexue Huang等人利用ACSys 对NRMA保险公司的投资组合数据库
进行了分析,得到了一些有用的规则,并在此基础上,分析了一些其它公司的数据,对
已有规则进行了拓宽。通过生成树中那些带索赔的叶子节点,可对一些风险的重要领域
进行研究。叶子节点的索赔频率和索赔额提供了重要的信息,通过生成树,还可得到一
些其它信息,如与风险领域相关的所有保费等.
  

--
          法学院BBS: bbs.law.tsinghua.edu.cn
          FTP站: 166.111.104.5
          水木摄影板的根据地: ftp://166.111.104.5/incoming
          Welcome.

※ 来源:.听涛站 cces.net.[FROM: 匿名天使的家]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:0.897毫秒