首页>技术分享>博客详情
机器学习过程中,我们该如何分析数据集?
在做推荐系统时,拿到一个数据集,我们应该怎么做?

在这篇文章中,我们将深入探讨机器学习核心步骤中的第一步:探索性分析。

在正式开始前,千万不要把这一步与数据可视化或数据结果统计混淆——数据可视化或数据结果统计意味着结果。

恰当的探索性分析其实就是回答问题,就是从数据集中尽可能多地得到数据启发。

在这一篇中,我们会向大家说明在探索性分析过程中需要了解的内容。

为什么要先分析数据集?


探索性分析是为了更好地了解数据集。这样做可以使项目的其他环节运行更流畅:

1.获得有关数据清理的宝贵灵感(数据清理有可能会破坏模型)

2.获得特征工程的启发(可以使模型性能更好)

3.获得对数据集的感性认识(有助于最终的结果交流和影响传递)

机器学习所需要的探索性分析应该是快速、高效、果断的……我们不要卡在上面,花费太多时间,但是,也不能跳过这一步。

在这个过程中,我们会面对n多张图表,但是,只需要少数几张就可以充分了解所有数据并加以利用。

从基础开始


首先,我们需要回答关于数据集的一系列基本问题:

  • 有多少个观察组?

  • 有哪些特征?

  • 特征对应的数据类型是什么?是数字吗?可分类吗?

  • 是否有目标变量?



观察示例

接下来,要展示数据集中的示例观察值。这一步会使我们对每个特征的值都有一个大体的认识,这也是检查所做的工作是否有意义的好方法。

这是房地产数据集的示例:



在数据集中显示示例,并不是在执行严格的分析,而是为了获取对数据集的一个感性认识,让我们对数据集有一些自己的初步想法。

  • 列是否有意义?

  • 列中的值是否有意义?

  • 数值是否正确?

  • 缺失的数据是否会成为大问题?


绘制数值分布


接下来,绘制数字特征的分布可能也会给我们一些启发。

通常,我们可以通过直方图来快速了解整个分布。



在这个过程中,我们需要关注以下几点:

  • 意外分布

  • 没有意义的潜在异常值

  • 本是二进制的特征

  • 没有意义的边界

  • 潜在的测量误差


遇上这些情况,我们应该及时记下后续要进行修复的注释。如果某些地方不太对劲,例如某项功能可能存在离群值,要询问客户或者其他利益相关者,或者进行更深入的探讨。

但是,在这里为了让我们整个工作步骤有序进行,我们会等到数据清理的时候才进行修复。

绘制分类分布


分类特征无法通过直方图体现,但我们可以使用条形图。

如果我们要寻找稀疏类,那要注意的是,这些类很少有观察值。

顺便说一句,类别class)是分类特征的唯一值。

例如,以下条形图显示了名为“ exterior_walls”的特征分布。因此,Wood SidingBrickStucco都是该特征下的不同类别。



从图中可以看到,某些“ exterior_walls”类的条形栏很短,这些就是稀疏类。

在构建模型时,稀疏类往往会出现问题。

  • 在最佳情况下,它们对模型的影响不大。

  • 在较坏的情况下,它们可能会导致模型过拟合。


因此,我们建议做笔记整理,稍后合并或重新分配其中一些类。更多细节我们会在之后的内容中提到。

细分


细分是观察分类特征和数字特征之间关系的有效方法。我们可以通过箱型图实现这一点。



以下是我们可以从上表中得出的一些启发。

  • 单户住宅的平均交易价格(方框中的垂直竖线)远高于公寓/联排别墅的交易价格。

  • 最小和最大交易价格在两个类别之间可比较。

  • 实际上,最小值($ 200k)和最大值($ 800k)的整数表明可能会截断数据,这在以后评估模型的可推广性时非常重要!


研究相关性


最后,我们通过研究相关性查看各个数字特征之间的关系。

相关性是介于-11之间的值,代表两个特征同步移动的程度。我们只需要有以下的感性认识即可,无需记住任何数学公式:

  • 正相关表示随着一个特征增加,另一个特征也增加,例如一个孩子的年龄和身高。

  • 负相关意味着随着一个特征增加,另一个特征减少。例如学习时间长短和参加聚会的人数。

  • 接近-11的相关性表示强关系。

  • 接近0的关系表示弱关系。

  • 0表示没有关系。


相关热图可帮助我们把这些信息可视化。以下是示例(注意:所有相关乘以100):



通常,我们应该关注以下几点:

  • 哪些特征与目标变量密切相关?

  • 其他特征之间是否存在有意思的或意外的强关联?


我们做这一步,也是为了获得有关数据的灵感直觉。这将在整个工作流程的整个过程中为您提供帮助。

在探索性分析结束后,我们会对整个数据集有一个很好的理解,明白一些有关数据清理的注意事项以及和特征工程相关的想法。




是一款赋能媒体的AI产品,是集内容上传、内容管理、内容分发、推荐干预、前端渲染于一体的一站式推荐服务可视化平台,支持PC、WAP、APP全平台接入,帮助媒体从0到1搭建推荐系统,显著提升用户活跃、留存、观看时长等重要业务指标,在减少技术成本投入的同时,大幅提高媒体运营效率,从而实现业务智能化转型。目前已服务人民日报、环球网、花瓣网、果壳网、段友、36氪、简书等三百余家内容平台,其中在环球网web端的兴趣推荐项目上,实现了点击率58%的提升,同时访问量和营收分别增长了69%、20%。

 

 
上一篇更好的数据和更高级的算法,在数...
下一篇 机器学习就等于算法吗?
猜你喜欢
08-22

如何解决推荐系统中的冷启动问题?

图片
08-09

推荐系统的工作流程

图片
08-18

推荐系统:混合过滤

图片
09-09

什么是流式计算

图片
09-11

流式计算的应用特征

图片