当前位置| 科技 > > 列表>详情

分类的基本介绍内容大致是?分类的方法和思路有什么?

2023-03-16 11:52:16 来源:创视网

分类的基本介绍

物以类聚,人以群分,分类问题只古以来就出现我们的生活中。分类是数据挖掘中一个重要的分支,在各方面都有着广泛的应用,如医学疾病判别、垃圾邮件过滤、垃圾短信拦截、客户分析等等。分类问题可以分为两类:

归类:归类是指对离散数据的分类,比如对根据一个人的笔迹判别这个是男还是女,这里的类别只有两个,类别是离散的集合空间{男,女}的。

预测:预测是指对连续数据的分类,比如预测明天8点天气的湿度情况,天气的湿度在随时变化,8点时的天气是一个具体值,它不属于某个有限集合空间。预测也叫回归分析,在金融领域有着广泛应用。

虽然对离散数据和连续数据的处理方式有所不同,但其实他们之间相互转化,比如我们可以根据比较的某个特征值判断,如果值大于0.5就认定为男性,小于等于0.5就认为是女性,这样就转化为连续处理方式;将天气湿度值分段处理也就转化为离散数据。

数据分类分两个步骤:

构造模型,利用训练数据集训练分类器;

利用建好的分类器模型对测试数据进行分类。

好的分类器具有很好的泛化能力,即它不仅在训练数据集上能达到很高的正确率,而且能在未见过得测试数据集也能达到较高的正确率。如果一个分类器只是在训练数据上表现优秀,但在测试数据上表现稀烂,这个分类器就已经过拟合了,它只是把训练数据记下来了,并没有抓到整个数据空间的特征。

分类的方法和思路有以下五种:

(1)直接分析法。按研究者对问题内在机理的认识直接构造出模型。运筹学中已有不少现存的模型,如线性规划模型、投入产出模型、排队模型、存储模型、决策和对策模型等。这些模型都有很好的求解方法及求解的软件,但用这些现存的模型研究问题时,要注意不能生搬硬套。

(2)类比法。有些问题可以用不同方法构造出模型,而这些模型的结构性质是类同的,这就可以互相类比。如物理学中的机械系统、气体动力学系统、水力学系统、热力学系统及电路系统之间就有不少彼此类同的现象。甚至有些经济系统、社会系统也可以用物理系统来类比。在分析一些经济、社会问题时,不同国家之间有时也可以找出某些类比的现象。

(3)数据分析法。对有些问题的机理尚未了解清楚,若能搜集到与此问题密切相关的大量数据,或通过某些试验获得大量数据,这就可以用统计分析法建模。

标签: 分类的基本介绍 介绍内容大致是 分类的方法 和思路有