醇榷破斗舜晤郸删导盟啼便部
第一章 单元测试
1、
下面哪句话是正确的( )
A:机器学习模型的精准度越高,则模型的性能越好
B:增加模型的复杂度,总能减小测试样本误差
C:增加模型的复杂度,总能减小训练样本误差
D:其余选项说法都不对
答案: 增加模型的复杂度,总能减小训练样本误差
2、
评估模型之后,得出模型存在偏差,下列哪种方法可能解决这一问题( )
A:减少模型中特征的数量
B:向模型中增加更多的特征
C:增加更多的数据
D:向模型中增加更多的特征和增加更多的数据
E:其余选项全是
答案: 向模型中增加更多的特征
3、 以垃圾微信识别为例,Tom Mitchell的机器学习的定义中,任务T是什么?( )
A:T是垃圾微信
B:T是识别
C:T是性能度量
D:T是不必要条件
答案: T是识别
4、 如何在监督式学习中使用聚类算法( )?
A:首先,可以创建聚类,然后分别在不同的集群上应用监督式学习算法
B:在应用监督式学习算法之前,可以将其类别ID作为特征空间中的一个额外的特征
C:在应用监督式学习之前,不能创建聚类
D:在应用监督式学习算法之前,不能将其类别ID作为特征空间中的一个额外的特征
答案: 首先,可以创建聚类,然后分别在不同的集群上应用监督式学习算法
在应用监督式学习算法之前,可以将其类别ID作为特征空间中的一个额外的特征
5、 想要训练一个ML模型,样本数量有100万个,特征维度是5000,面对如此大数据,如何有效地训练模型( )?
A:对训练集随机采样,在随机采样的数据上建立模型
B:尝试使用在线机器学习算法
C:使用PCA算法减少特征维度
答案: 对训练集随机采样,在随机采样的数据上建立模型
尝试使用在线机器学习算法
使用PCA算法减少特征维度
6、 机器学习兴起于( )。
A:1960年
B:1970年
C:1980年
D:1990年
答案: 1980年
1990年
7、 监督学习包括是( )。
A:聚类算法
B:回归
C:分类
D:关联算法
答案: 回归
分类
8、 机器学习可以对电子商务产品评价进行好评与差评分类。( )
A:对
B:错
答案: 对
9、 机器学习必备知识包括数学基础、心理学基础、算法设计基础、商业模式基础。( )
A:对
B:错
答案: 错
10、 填空题机器学习是一门多学科交叉专业,涵盖_、_、近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率。
答案: 概率论知识
统计学知识
第二章 单元测试
1、
关于k-NN算法,以下哪个选项是正确的?
A:可用于分类
B:可用于回归
C:可用于分类和回归
答案: 可用于分类和回归
2、
k-NN算法在测试时间而不是训练时间上进行了更多的计算。
A:对
B:错
答案: 对
3、
假设算法是k最近邻算法,在下面的图像中,____将是k的最佳值。
A:3
B:10
C:20
D:50
答案: 10
4、
一个kNN分类器,该分类器在训练数据上获得100%的准确性。而在客户端上部署此模型时,发现该模型根本不准确。以下哪项可能出错了?
注意:模型已成功部署,除了模型性能外,在客户端没有发现任何技术问题
A:可能是模型过拟合
B:可能是模型未拟合
C:不能判断
D:其余三个选项都不是
答案: 可能是模型过拟合
5、
以下是针对k-NN算法给出的两条陈述,其中哪一条是真的?
1、我们可以借助交叉验证来选择k的最优值
2、欧氏距离对每个特征一视同仁
A:1
B:2
C:1和2
D:1和2都不是
答案: 1和2
6、
你给出了以下2条语句,发现在k-NN情况下哪个选项是正确的?
1、如果k的值非常大,我们可以将其他类别的点包括到邻域中。
2、如果k的值太小,该算法会对噪声非常敏感
A:1
B:2
C:1和2
D:1和2都不是
答案: 1和2
7、
在下图中,下列哪一个k值可以给出最低的留一法交叉验证精度?
A:1
B:2
C:3
D:5
答案: 2
8、
如果一个经过训练的机器学习模型在测试集上达到 100% 的准确率,这是否意味着该模型将在另外一个新的测试集上也能得到 100% 的准确率呢?
A:是的,因为这个模型泛化能力已经很好了,可以应用于任何数据
B:不行,因为还有一些模型不确定的东西,例如噪声
答案: 不行,因为还有一些模型不确定的东西,例如噪声
9、
关于K折交叉验证,下列说法正确的是?
A:K值并不是越大越好,K值过大,会降低运算速度;
B:选择更大的K值,会让偏差更小,因为K值越大,训练集越接近整个训练样本
C:选择合适的K值,能减小验方差
D:其余选项都正确
答案: 其余选项都正确
第三章 单元测试
1、 下面有关决策树的描述,错误的是( )。
A:决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法
B:决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别
C:决策树易于理解和实现,人们在在学习过程中不需要使用者了解很多的背景知识,这同时是它的能够直接体现数据的特点,只要通过解释后都有能力去理解决策树所表达的意义
D:对于决策树,数据的准备需要海量的,并且需要能够同时处理数据型和常规型属性,在相对短的时间内能够对大型数据源做出可行且效果良好的结果
答案: 对于决策树,数据的准备需要海量的,并且需要能够同时处理数据型和常规型属性,在相对短的时间内能够对大型数据源做出可行且效果良好的结果
2、
决策树的优点在于( )。
A:直观简洁
B:简化决策过程
C:便于解决多阶段问题差
D:其余三方面均是
答案: 便于解决多阶段问题差
3、 在决策树方法中,由决策节点引出的分支称为__,由自然状态节点引出的分支称为___。 ( )
A:决策分支、状态分支
B:方案分支、概率分支
C:决策分支、概率分支
D:方案分支、状态分支
答案: 决策分支、概率分支
4、 决策树一般不包括。( )
A:时间节点
B:状态节点
C:结果节点
D:决策节点
答案: 时间节点
5、 以下哪个领域不是决策树算法擅长的应用领域?( )
A:垃圾邮件分类
B:医疗诊断
C:客户信用度分类
D:机器视觉
答案: 机器视觉
6、 决策树的构成要素包括:( )?
A:决策点
B:方案枝
C:状态节点
D:概率枝
答案: 决策点
方案枝
状态节点
概率枝
7、 在决策树剪枝中,常用的后剪枝法有:( )?
A:TP阈值剪枝法
B:REP错误率降低剪枝法
C:PEP悲观剪枝法
D:CCP代价复杂度剪枝法
答案: REP错误率降低剪枝法
PEP悲观剪枝法
CCP代价复杂度剪枝法
8、 决策树特征选择准则较常采用的三种指标是:( )?
A:信息增益(Information Gain)
B:信息熵(Information entropy)
C:信息增益率(Information Gain Ratio)
D:基尼指数(Gini Index )
答案: 信息增益(Information Gain)
信息增益率(Information Gain Ratio)
基尼指数(Gini Index )
9、 决策树的学习过程主要包括:( )?
A:特征选择
B:决策树的生成
C:数据清洗
D:决策树的剪枝
答案: 特征选择
决策树的生成
决策树的剪枝
10、 如果决策树过度拟合训练集,那么可以适当降低max_depth值,因为这样会限制模型,使其正则化。( )
A:对
B:错
答案: 对
11、 绘制决策树时,节点上的数字为此方案的损益期望值。( )
A:对
B:错
答案: 对
12、 填空题ID3决策树学习算法是以 为准则来划分的属性的。____
答案: 信息增益
13、 填空题C4.5决策树学习算法是以 为准则来划分的属性的。____
答案: 信息增益率
14、 填空题CAR决策树学习算法是以 为准则来划分的属性的。____
答案: 基尼指数
第四章 单元测试
1、 p1(x,y)属于类别R,p2(x,y)属于类别B,一个新数据点(x1,y1),可以用下面的规则来判断它的类别( )。
A:如果p1(x1,y1) > p2(x1,y1),那么类别为B
B:如果p1(x1,y1) < p2(x1,y1),那么类别为R
C:如果p1(x1,y1) > p2(x1,y1),那么类别为R
D:如果p1(x1,y1) < p2(x1,y1),不清楚
答案: 如果p1(x1,y1) > p2(x1,y1),那么类别为R
2、 在PYTHON中实现中文商品评价词条向量应用( )。
A:分词函数jieba
B:分词函数jieba,再做向量化格式
C:根据在字典中存在情况转化为0和1
D:直接使用
答案: 分词函数jieba,再做向量化格式
3、 朴素贝叶斯中的朴素一词的来源就是( )
A:假设各特征之间相互独立
B:使得朴素贝叶斯算法变得简单
C:牺牲一定的分类准确率
D:一般的意思
答案: 假设各特征之间相互独立
使得朴素贝叶斯算法变得简单
牺牲一定的分类准确率
4、 朴素贝叶斯算法优缺点包括( )。
A:数据集属性之间是相互独立情况下,算法的逻辑性十分简单
B:数据集属性之间是相互独立情况下,算法较为稳定
C:数据集属性之间是相互独立情况下,会导致分类的效果大大降低
D:数据集属性之间是相互独立情况下,对于不同类型的数据集不会呈现出太大的差异性
答案: 数据集属性之间是相互独立情况下,算法的逻辑性十分简单
数据集属性之间是相互独立情况下,算法较为稳定
数据集属性之间是相互独立情况下,对于不同类型的数据集不会呈现出太大的差异性
5、 朴素贝叶斯算法工程应用分为三个阶段( )
A:计算概率阶段
B:数据准备阶段
C:朴素贝叶斯分类器构建与训练学习
D:部署与应用阶段
答案: 数据准备阶段
朴素贝叶斯分类器构建与训练学习
部署与应用阶段
6、 全概率公式解决的是由果索因的问题。( )
A:对
B:错
答案: 错
7、 将数据表格中数据进行预处理,转化为0、1格式,便于算法计算。( )
A:对
B:错
答案: 对
8、 拉普拉斯平滑(Laplace Smoothing)是比较常用的平滑方法,是为了解决0概率问题。( )
A:对
B:错
答案: 对
9、 填空题
P(购买 | 特征)= P( | )* P( ) / P( ) _、、 _、。
答案: 特征
购买
购买
特征
10、 填空题
词袋模型是为了解决商品各段评价文档中可能有重复单词,每遇到一个单词,增加词向量中对应值,采用____的方法实现。
答案: 累加1
11、 填空题
在相应小数位置进行四舍五入乘法运算中,计算结果可能就变成_。为了避免下溢出或者浮点数舍入导致的错误问题,对乘积结果取_方法。
答案: 0
自然对数
第五章 单元测试
1、 线性回归要求因变量符合正态分布?( )
A:对
B:错
答案: 对
3、 下列关于线性回归说法错误的是( )
A:在现有模型上,加入新的变量,所得到的R^2的值总会增加
B:线性回归的前提假设之一是残差必须服从独立正态分布
C:残差的方差无偏估计是SSE/(n-p)
D:自变量和残差不一定保持相互独立
答案: 自变量和残差不一定保持相互独立
4、
在以下四个散点图中。其中适用于做线性回归的散点图为
A:1和2
B:1和3
C:2和3
D:3和4
答案: 1和3
5、
下列变量中,属于负相关的是
A:收入增加,储蓄额增加
B:产量增加,生产费用增加
C:收入增加,支出增加
D:价格下降,消费增加
答案: 价格下降,消费增加
6、
二次多项式回归,x的列数为2,则执行如下程序后,
polynomial = PolynomialFeatures(degree = 3)
x_transformed = polynomial.fit_transform(x)
x_transformed的列数为
A:1
B:2
C:3
D:4
E:5
F:6
答案: 5
7、
逻辑回归主要用来做回归吗?
A:是
B:否
答案: 否
8、
逻辑回归能否解决多分类问题?
A:是
B:否
答案: 是
9、
下列关于梯度下降法说法正确的是
A:梯度下降法就是不断地更新和调整学习率
B:梯度下降法就是不断地更新w和b的导数值
C:梯度下降法就是不断寻找损失函数的最大值
D:梯度下降法就是不断地更新w和b的值
答案: 梯度下降法就是不断地更新w和b的值
10、
逻辑回归中采用以下哪种方法来调整参数?
A:最小二乘法
B:最大似然法
C:杰卡德距离
答案: 最大似然法
上方为免费预览版答案,如需购买完整答案,请点击下方红字
点关注,不迷路,微信扫一扫下方二维码
关注我们的公众号:阿布查查 随时查看答案,网课轻松过
为了方便下次阅读,建议在浏览器添加书签收藏本网页
电脑浏览器添加/查看书签方法
1.按键盘的ctrl键+D键,收藏本页面
2.下次如何查看收藏的网页?
点击浏览器右上角-【工具】或者【收藏夹】查看收藏的网页
手机浏览器添加/查看书签方法
一、百度APP添加/查看书签方法
1.点击底部五角星收藏本网页
2.下次如何查看收藏的网页?
点击右上角【┇】-再点击【收藏中心】查看
二、其他手机浏览器添加/查看书签方法
1.点击【设置】-【添加书签】收藏本网页
2.下次如何查看收藏的网页?
点击【设置】-【书签/历史】查看收藏的网页
歇唉穗寺归上说放你纺瘦疏肠