数据挖掘题目 R语言数据挖掘 mlp参数问题

数据挖掘题目

1: 孤立点分析: 去掉离群点，噪声点(当然主要靠业务分析)
数据平滑: 使整体数据更加平滑，趋势更明显，减小波动
正态化: 这个是统计学的基础要求，所有数据必须朝这个方向处理
离散数据连续化：某些算法只能处理这种数据，反之既然
其他参考数据挖掘书籍(其实更重要是弄清楚X,Y各是什么)
2:
1) 自己研究excel,很简单
2)3) 变换就那么几种，ln, e, 乘个什么数，除个什么数，自己研究一下

R语言数据挖掘 mlp参数问题

训练的时候。test数据肯定是不参与，所以默认情况下是NULL，但是加入test数据过后，比如说我已经对train数据迭代了一次了，也就是遍历了一次train的数据集合，这时候，可以测试一些test数据，看看这个模型在test上面的效果怎样。收敛的MLP过程下，每一次迭代整个数据集过后，在test数据集上面的错误率应该是逐渐减少的。所以，我感觉test数据其实就是为了测试当前训练好的模型的效果。

R语言四舍五入问题

这里采用的并不是“四舍五入”原则，而是“四舍六入五成双”原则，即逢四舍去，逢六进位，如果是五，则看前一位的奇偶性，是偶数舍去，奇数则进位。这样的话5.45保留一位小数是5.4，而5.55保留一位小数则是5.6
四舍五入原则本身是存在缺陷的，因为4和5之间（可以理解为4.5）并不是0到9这10个数字的中间分界点，考虑到小数，这个区间准确而言应该是0到9.9999...，所以4.9999...才是真正的中间分界点，其实就是5，所以如果按照四舍五入原则，在样本数足够多的情况下，会发现进位的情况要比舍去的情况多，造成一种人为的“分配不公”的误差，因此电脑程序通常不采用四舍五入原则，而是用四舍六入五成双原则，即以5为分界点

R语言因子分析旋转载荷问题

因子旋转载荷。。你是不是这么算的，

1. 数据标准化
2. 算相关系数矩阵R
3. 求R的特征值和贡献率，看你这就是前四个特征值的贡献率估计就占了90%左右
4. 算出你的因子载荷阵
5. 将载荷阵实行方差最大正交转换，得到你上面那个表。
那么关键是看每个对应最大的那几个指标，小的说明不在这个因子里面起作用，0就是完全不起作用
你的目标是将所有这些指标，从废金属到集成电路，分成4类，两两没有交集，然后给4个因子起上对应的名字，说明指标的类型。
factor1对应未锻造的钢材，集成电路--- 。。。
factor2对应废金属，二甲苯，废塑料-----这个叫废料指标？
factor3对应初级塑料，液晶显示板，钢材 ---这个叫原料指标？
factor4对应铁矿砂，未锻压镍 --- 这个叫铁指标？。。
我完全不懂你们专业，所以分组会很业余，我是根据最大载荷在哪个因子就分给谁，但实际情况要按照你的专业知识进行分配。

云奕文章网

数据挖掘题目 R语言数据挖掘 mlp参数问题