(来学网)关于数据挖掘的方法,下列说法正确的有()。
  • A.
    (来学网)分类是通过特征变量确定观测单位所属的类别,因变量是分类变量,常用的分类方法有逻辑斯特回归、决策树、随机森林和支持向量机等
  • B.
    (来学网)回归是通过特征变量确定观测单位因变量的取值,因变量是定量变量,常用的回归方法有线性回归、非线性回归和分位数回归等
  • C.
    (来学网)监督学习的主要任务是探索数据之间的内在联系和结构
  • D.
    (来学网)降维是指把一组数据按照差异性和相似性分为几个类别,使得同类的数据相似性尽可能大,不同类的数据相似性尽可能小,跨类的数据关联性尽可能低
  • E.
    (来学网)常用的聚类方法包括基于划分的方法(例如k均值聚类算法)、基于分层的方法、基于密度的方法、基于网格的方法和基于模型的方法
正确答案:
ABE
答案解析:
本题考查知识点数据挖掘。监督学习的数据集中,每个观测单位既有自变量,又有因变量。根据已有的数据集,训练出模型可以根据自变量数据得到因变量预测结果的过程称为监督学习。模型学习的好坏可以根据因变量的实际值和预测值之间的差异判断。监督学习中有两大类典型任务:分类和回归。(1)分类是通过特征变量确定观测单位所属的类别,因变量是分类变量。常用的分类方法有逻辑斯特回归、决策树、随机森林和支持向量机等。选项A说法正确。(2)回归是通过特征变量确定观测单位因变量的取值,因变量是定量变量。常用的回归方法有线性回归、非线性回归和分位数回归等。选项B说法正确。无监督学习的数据集中,每个观测单位只有自变量,没有因变量。无监督学习的主要任务是探索数据之间的内在联系和结构。选项C说法错误。无监督学习中有两大类典型任务:聚类和降维。(1)聚类是指把一组数据按照差异性和相似性分为几个类别,使得同类的数据相似性尽可能大,不同类的数据相似性尽可能小,跨类的数据关联性尽可能低。常用的聚类方法包括基于划分的方法(例如k均值聚类算法)、基于分层的方法、基于密度的方法、基于网格的方法和基于模型的方法。选项E正确。(2)降维是指在不损失过多信息的前提下将N个相关的特征降为k个不相关的特征(其中k<N),使其具有更好的解释性,因此降维也称为特征提取。常用的降维方法包括主成分分析法、因子分析法等。选项D错误。本题答案为ABE选项。