首页>技术分享>博客详情
更好的数据和更高级的算法,在数据清理中哪一个更重要?
在上一章中,我们学习了如何对一个数据集进行探索性分析,也阐述了常见的要从数据集中获取的信息。

基于这些信息,接下来就是通过数据清理,让我们的数据集达到最佳状态了。数据清理也是搭建任何一种推荐系统必经的步骤之一。

数据清理的步骤和技术因数据集而异。我们没有办法在一篇文章中穷尽所有会出现的问题。

这篇文章介绍了数据清理的一些常见步骤,例如修复结构性错误,处理丢失的数据以及过滤观察值。

 更好的数据>更高级的算法

 数据清理是每个人都要做的事情之一,但很少有人专门讨论这件事,原因很简单,这不是机器学习的最性感的部分。而且,没有什么可供挖掘的隐藏技巧和秘密。

 但事实上,数据清理可能会加快或中断整个项目进程。专业的数据科学家通常在此步骤上花费很大一部分时间。他们为什么要这么做呢?机器学习中存在一个很简单的事实:

更好的数据胜过更高级的算法。

 换句话说,输入垃圾数据,得到的也是垃圾结果。

如果我们的数据集经过了正确的清洗,那么即使是简单的算法也可以从中得到深刻的启发!

不同类型的数据需要不同的清洗方法。但是,本文中阐述的系统方法可以作为一个很好的学习起点。



 删除不需要的观测结果

数据清理的第一步是从数据集中删除不需要的观测结果,包括重复或不相关的观测结果。

 重复的观测结果

重复的观测结果最常见于数据收集期间,例如:

  • 合并多个来源的数据集时

  • 抓取数据时

  • 从客户/其他部门接入数据时


 

不相关的观测结果

不相关的观测结果实际上与我们要解决的特定问题不符。

  • 例如,如果我们仅为单户住宅构建模型,则不希望对其中的公寓也进行观测。

  • 这时候,我们也可以在上一步的探索性分析中判断出来。我们可以查看类别特征的分布图,以查看是否有不相关的类存在。

  • 在做工特征工程之前,我们也可以检查是否存在不相关的观察结果。


修复结构性错误

结构性错误是在测量、数据传输或其他的不良内部管理过程中出现的错误。

例如,我们可以检查拼写错误或大小写不一致的问题。这些主要和分类特征有关。

这是一个例子:

 从上图中可以看到:

  • “Composition”“composition”相同

  • asphalt应为Asphalt

  • “ shake-shingle”应为“ Shake Shingle”

  • asphalt,shake-shingle也可能只是Shake Shingle


替换错字和大小写不一致后,整个分类变得更加整洁:

 最后,检查标签错误的类,即实际上应该相同的类。

  • 例如:如果N/ANot Applicable显示为两个单独的类,则应将其合并。

  • 例如:“ IT”“ information_technology”应该是同一个类。


 过滤不需要的异常值

异常值可能会导致某些模型出现问题。例如,线性回归模型对异常值的鲁棒性不如决策树模型。

通常,如果我们有合理的理由要删除异常值,则可以提高模型的性能。

但是,在证明异常值无用之前,我们永远不要仅仅因为它是一个大数字就删除它,因为这个数字可能对我们的模型有很大帮助。

这一点很重要:在删除异常值之前必须要有充分的理由,例如不是真实数据的可疑度量。

 

处理缺失的数据

在机器学习应用过程中,数据缺失看上去是一个很棘手的问题。

为了清楚起见,我们不能简单地忽略数据集中的缺失值。由于大多数算法都不接受缺失值,因此,我们必须通过某种方式来处理这一点。

 常识在这里并不灵验

根据我们的经验,处理丢失数据的两种最常用的推荐方法实际上都不怎么有用。

这两种方法分别是:

1.删​​除具有缺失值的观测值

2.根据其他观察结果估算缺失值

 删除缺失值不是最佳选择,因为删除观察值时会删除信息。

  • 缺失值本身可能会提供一些参考

  • 在现实世界中,即使缺少某些功能,我们也经常需要对新数据进行预测


 插入缺失值也不是最佳选择,因为该值最初是缺失的,但如果我们将其填充,无论插入缺失值的方法多么精确得当,总是会导致信息丢失。

  • 同样,遗漏本身几乎总是有用的,我们应该告诉算法是否存在缺少值。

  • 即使我们重新建立了模型来估算值,也没有添加任何实际信息——这样做仅仅在增强其他功能已经提供的模式。


 丢失数据就像丢失了一块拼图。如果将其放下,就好像在假装不存在拼图槽;如果进行估算,那就像是试图从拼图上的其他地方挤一块儿进去。

 简而言之,自始至终,我们都应该告诉算法,缺少值是因为缺少可提供信息。

具体怎么做呢?告诉算法该值一开始就已丢失。



 缺少分类特征的数据

处理分类特征缺失的数据的最佳方法是简单地将其标记为缺失

  • 这样做实质上是在为该特征添加新的类。

  • 告诉算法缺少该值。

  • 满足了技术需求,即要求没有任何缺失值。


 缺少数字数据

对于缺少的数字数据,应标记并填充值。

1.使用缺失的指示变量标记观察结果。

2.为了满足没有任何缺失值的技术需求,用0填充原始丢失值。

通过标记和填充,从本质上讲,我们可以让该算法估算缺失的最佳常数,而不仅仅是用均值填充。
上一篇关于推荐系统,RecSys 2...
下一篇 机器学习过程中,我们该如何分析...
猜你喜欢
08-19

推荐系统如何处理数据?

图片
09-11

流式计算的应用特征

图片
09-09

什么是流式计算

图片
08-28

用于推荐系统评估的概念与指标

图片
09-16

大数据流式计算存在的挑战

图片