java系统找不到指定文件怎么解决
284
2022-09-27
特征预处理_无量钢化
无量钢化分为
1.归一化 2.标准化 主要是为了使数据可以有一个统一的比重
常见的无量纲化处理方法主要有极值化、标准化(最常用)、均值化和标准差化方法。
归一化
定义
通过对原始数据的转化把数据映射到[0,1)之间
公式为:
1列 90: X· = 1 X`` = 1
2列 2: X` = 0 X`` = 0
API:
数据计算
from sklearn.datasets import load_irisimport pandas as pdfrom sklearn.preprocessing import MaxAbsScalerdef dataset_demo(): # 归一化 #1.获取数据 data = pd.read_csv("dating.txt") data = data.ilic[:, :3] print(data) #2.实例化转化器类 transfor = MaxAbsScaler() #3.调用fit_transform() data_new = transfor.fit_transform(data) print(data_new) return Noneif __name__ == "__main__": dataset_demo()
问题
由于归一化的最大值和最小值是变化的,而且受到其他点的影响,所以只使用于小场景
标准化
定义
通过对原始数据进行变化为均值为0,方差为1的范围
公式
对于归一化来说:如果出现异常点的话,会影响最大值和最小值,那么结果会发生变化对于标准化来说:如果出现异常值的话,由于具有一定数据量,少量的异常点对于均值没有影响,方差改变小
API
数据计算
from sklearn.datasets import load_irisimport pandas as pdfrom sklearn.preprocessing import MaxAbsScalerfrom sklearn.preprocessing import StandardScalerdef dataset_demo(): # 归一化 #1.获取数据 data = pd.read_csv("dating.txt") data = data.ilic[:, :3] print(data) #2.实例化转化器类 transfor = StandardScaler() #3.调用fit_transform() data_new = transfor.fit_transform(data) print(data_new) return Noneif __name__ == "__main__": dataset_demo()
总结
标准化适用于大场景
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~