分类的基本介绍
物以类聚,人以群分,分类问题只古以来就出现我们的生活中。分类是数据挖掘中一个重要的分支,在各方面都有着广泛的应用,如医学疾病判别、垃圾邮件过滤、垃圾短信拦截、客户分析等等。分类问题可以分为两类:
归类:归类是指对离散数据的分类,比如对根据一个人的笔迹判别这个是男还是女,这里的类别只有两个,类别是离散的集合空间{男,女}的。
预测:预测是指对连续数据的分类,比如预测明天8点天气的湿度情况,天气的湿度在随时变化,8点时的天气是一个具体值,它不属于某个有限集合空间。预测也叫回归分析,在金融领域有着广泛应用。
虽然对离散数据和连续数据的处理方式有所不同,但其实他们之间相互转化,比如我们可以根据比较的某个特征值判断,如果值大于0.5就认定为男性,小于等于0.5就认为是女性,这样就转化为连续处理方式;将天气湿度值分段处理也就转化为离散数据。
数据分类分两个步骤:
构造模型,利用训练数据集训练分类器;
利用建好的分类器模型对测试数据进行分类。
好的分类器具有很好的泛化能力,即它不仅在训练数据集上能达到很高的正确率,而且能在未见过得测试数据集也能达到较高的正确率。如果一个分类器只是在训练数据上表现优秀,但在测试数据上表现稀烂,这个分类器就已经过拟合了,它只是把训练数据记下来了,并没有抓到整个数据空间的特征。
分类的方法和思路有以下五种:
(1)直接分析法。按研究者对问题内在机理的认识直接构造出模型。运筹学中已有不少现存的模型,如线性规划模型、投入产出模型、排队模型、存储模型、决策和对策模型等。这些模型都有很好的求解方法及求解的软件,但用这些现存的模型研究问题时,要注意不能生搬硬套。
(2)类比法。有些问题可以用不同方法构造出模型,而这些模型的结构性质是类同的,这就可以互相类比。如物理学中的机械系统、气体动力学系统、水力学系统、热力学系统及电路系统之间就有不少彼此类同的现象。甚至有些经济系统、社会系统也可以用物理系统来类比。在分析一些经济、社会问题时,不同国家之间有时也可以找出某些类比的现象。
(3)数据分析法。对有些问题的机理尚未了解清楚,若能搜集到与此问题密切相关的大量数据,或通过某些试验获得大量数据,这就可以用统计分析法建模。