导航菜单
首页 >  » 正文

数据挖掘题目 R语言 数据挖掘 mlp参数问题

数据挖掘题目

1: 孤立点分析: 去掉离群点,噪声点(当然主要靠业务分析)
数据平滑: 使整体数据更加平滑,趋势更明显,减小波动
正态化: 这个是统计学的基础要求,所有数据必须朝这个方向处理
离散数据连续化:某些算法只能处理这种数据,反之既然
其他参考数据挖掘书籍(其实更重要是弄清楚X,Y各是什么)
2:
1) 自己研究excel,很简单
2)3) 变换就那么几种,ln, e, 乘个什么数,除个什么数,自己研究一下

R语言 数据挖掘 mlp参数问题

训练的时候。test数据肯定是不参与,所以默认情况下是NULL,但是加入test数据过后,比如说我已经对train数据迭代了一次了,也就是遍历了一次train的数据集合,这时候,可以测试一些test数据,看看这个模型在test上面的效果怎样。收敛的MLP过程下,每一次迭代整个数据集过后,在test数据集上面的错误率应该是逐渐减少的。所以,我感觉test数据其实就是为了测试当前训练好的模型的效果。

R语言四舍五入问题


这里采用的并不是“四舍五入”原则,而是“四舍六入五成双”原则,即逢四舍去,逢六进位,如果是五,则看前一位的奇偶性,是偶数舍去,奇数则进位。这样的话5.45保留一位小数是5.4,而5.55保留一位小数则是5.6
四舍五入原则本身是存在缺陷的,因为4和5之间(可以理解为4.5)并不是0到9这10个数字的中间分界点,考虑到小数,这个区间准确而言应该是0到9.9999...,所以4.9999...才是真正的中间分界点,其实就是5,所以如果按照四舍五入原则,在样本数足够多的情况下,会发现进位的情况要比舍去的情况多,造成一种人为的“分配不公”的误差,因此电脑程序通常不采用四舍五入原则,而是用四舍六入五成双原则,即以5为分界点

R语言因子分析旋转载荷问题

因子旋转载荷。。你是不是这么算的,

1. 数据标准化
2. 算相关系数矩阵R
3. 求R的特征值和贡献率,看你这就是前四个特征值的贡献率估计就占了90%左右
4. 算出你的因子载荷阵
5. 将载荷阵实行方差最大正交转换,得到你上面那个表。
那么关键是看每个对应最大的那几个指标,小的说明不在这个因子里面起作用,0就是完全不起作用
你的目标是将所有这些指标,从废金属到集成电路,分成4类,两两没有交集,然后给4个因子起上对应的名字,说明指标的类型。
factor1对应未锻造的钢材,集成电路---  。。。
factor2对应废金属,二甲苯,废塑料-----这个叫  废料指标?
factor3对应初级塑料,液晶显示板,钢材  ---这个叫 原料指标?
factor4对应铁矿砂,未锻压镍 --- 这个叫铁指标?。。
我完全不懂你们专业,所以分组会很业余,我是根据最大载荷在哪个因子就分给谁,但实际情况要按照你的专业知识进行分配。

相关推荐: