NumPy:怎么处理缺失的数字

在处理样本时,有的数据会有缺失,在这里简要记录一些处理方法。

CSV文件的样本数据

例,example.csv:

np.genfromtx 函数有一个 missing_values 参数默认把缺失数字转为np.nan,这可以让我们构建NumPy ndarray对象即使有数据有丢失。

Screen Shot 2015-11-29 at 4.41.07 PM

判断一个值是否缺失

Screen Shot 2015-11-29 at 4.44.57 PM

Screen Shot 2015-11-29 at 4.46.06 PM

计算缺失数据的个数

Screen Shot 2015-11-29 at 4.50.20 PM

如果要计算有效数据数:

Screen Shot 2015-11-29 at 4.52.15 PM

计算包含 NaN 数组的总和sum

我们不能用NumPy的sum函数计算数组和,如下:

Screen Shot 2015-11-29 at 4.56.10 PM

由于不能用sum函数,还有一个叫 np.nansum:

Screen Shot 2015-11-29 at 4.58.15 PM

Screen Shot 2015-11-29 at 5.01.41 PM

Screen Shot 2015-11-29 at 5.03.12 PM

移除所有有数据缺失的行

Screen Shot 2015-11-29 at 5.05.33 PM

把丢失的值转为0

Screen Shot 2015-11-29 at 5.11.21 PM

把特定数值改为NaN

Screen Shot 2015-11-29 at 5.14.08 PM
移除所有NaN值

Screen Shot 2015-11-29 at 5.17.29 PM

单独行

Screen Shot 2015-11-29 at 5.19.24 PM

相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注