首页>技术分享>博客详情
新华智云首席数据官李金波:数据中台赋能5G新媒体智能化变革
第四范式先荐在2050大会上召集了《新媒体结合人工智能后的裂变》主题的新生论坛,新华智云首席数据官李金波在论坛上分享了数据中台的建设实践经验。

以下是演讲实录:

演讲嘉宾简介:李金波,阿里大数据平台最早期参与者和建设者之一,负责基础核心数据体系的建设和20多个业务BU基础数据服务。目前在新华智云,致力于为媒体行业实现智能化和数据化。

大家好,刚才几个老师分别从技术和业务应用场景讲述媒体当前整体的发展和未来的方向,今天我想和大家聊聊数据以及数据平台的建设如何赋能媒体未来的发展。

我们在新华智云经常说一句话,叫“数据即新闻,新闻即数据”,什么概念呢?就是说在新闻发生之前,所有信息都是以数据形式流转,数据在流转的过程中就有可能会产生新闻内容。所以我们今天来讲一讲,如何搭建一个数据中台来赋能未来5G新媒体的发展

新华智云李金波


先简单介绍一下新华智云,新华智云由新华社和阿里巴巴合资成立,可能新华智云大家听得不多,但理论上“媒体大脑”应该都听过。媒体大脑是新华智云的一个产品,我们将这些新技术和新能力围绕着媒体场景打造成不同的产品,来服务我们上层的客户。

 

5G新媒体的趋势

接下来聊一聊我眼中5G新媒体未来的趋势。

首先谈谈5G相比4G的区别:网速快了,流量不再是问题了,如果用5G,可能大家不会再担心“今天我用手机看视频不小心睡着了,把一栋房子睡没了”这样的问题了。所以当流量和延迟不再是问题的时候,大家更希望用更丰富的表现形式做内容的传播,视频就是较好的展现形式。我个人理解,未来在网络上传播的资讯或者娱乐内容等都会以视频的方式来处理。

数据中心全域数据


第二,之前的媒体模式更多是单点,从记者采编,然后编辑,再去分发,这只是一个点对点的一个生产方式。我认为未来发展时代是全流程数据解决方案时代。在媒体生产传播环节,都会依赖数据的能力和力量来支撑媒体的发展。另外,以前传播渠道更多的是报纸、电视,到手机或者个人IP的单一模式。随着UGC的发展,大家不再仅限于在自己的环境下,而是可以在更多大的传播平台传播生产的内容。

第三,以前都是人工写稿,后来记者和编辑合作起来写稿,现在开始逐渐有各种各样的写稿机器人来做内容的生产。当然,它也代表了一种趋势,今天内容创造者和机器创作之间的边界开始越来越模糊,未来可能不再是纯人工的写稿,当然纯机器的写稿可能也还比较远,但未来技术和内容创作本身之间的结合可能会越来越紧密

 

新华智云李金波


那么今天新闻即数据数据即新闻到底是一种怎样的表现形态呢?(播放视频)这是我们在进出口博览会期间创作的传播内容。今天传播内容其实完全是数字化的,其实将数字用一种可视化和视频化的方式展现出来,让更多的人能够对这些之前很干巴巴的数字有更直观的一个感受

所以综合看来,媒体以及媒体自身依赖的数据以及数据能力,不仅限于媒体自身的数据,不仅仅体现于采访数据。我的照片数据或者传播分发后的数据等,未来都可能和媒体之间发生化学反应。这其实说明,今天我们要为媒体赋能不能仅限于媒体自身的数据,我们也希望未来开放更多社会化数据来赋能媒体,能够让媒体的创作者有更多的素材和能力。

 

数据中台是一个跨业务数据能力服务的平台

回到今天的主题,我不知道有多少同学听过“数据中台”,它大约在2014-2015年间开始被提及,就今年的前几个月,有越来越多的企业提出这个概念。先讲一下中台到底是什么,它和我们所说的仓库和平台到底是一个什么样的关系?

中台不是一个突然冒出的东西,它其实是一个数据平台或者数据建设的定位。你可以说今天我的平台建设定位是一个数据状态,但我们一般不太会说,我不做数据平台,我只做数据状态。它其实是一个演进的过程,就像最早的时候我们说做数据仓库,然后后来随着数据量本身的增长,对计算复杂度的要求越来越多,后来才逐步演化成数据平台随着平台能支撑的业务越来越多,平台本身对于数据能力的建设丰富度越来越高,最后演化成数据中台

所以其实数据中台能够将数据本身的能力挖掘出来,同时服务自己更多的业务场景。他其实是一个跨业务的数据能力服务的一个平台。

新华智云李金波


你以前做的仓库、建模、算法模型那些事情理论上都还是存在,中台其实是这些能力构建最基础的依赖。最简单的区别就是,今天不在再是围绕着某一个业务所构建能力,而是综合自身的多种业务类型,从数据本身能力建设的角度来构建这个平台,所以核心基础其实还是围绕着数据能力的建设。刚才几位老师讲的在应用当中推荐、热点、内容建设等,核心的东西其实是底层平台和上述业务中间抽象出来的一个能力构建成的。

 

如何去构建一个媒体的数据状态?

构建数据中台这个理念提出之后,首先要去分析和了解今天媒体的数据和业务特征到底是什么?对能力的要求是什么?总结下来三部分,

第一,媒体和传统的企业级数据仓库或者数据平台的构建比较,最大的不同就是,媒体行业所依赖的数据90%以上都是非结构化数据。比如说文本型、读图、象形、音频视频类等非结构化的数据。在你获取数据结构化数据之前,有一些结构化数据其实也是从非结构化的数据获取的,我觉得这是媒体数据最大的特征。

第二,数据来源的多样性。本身今天媒体依赖的数据可能绝大部分不是你自己生产的数据。在企业,不管是互联网企业还是传统企业做数据平台的时候,大部分的数据依赖都是我的业务产生的数据。但媒体依赖的不是他自身的数据内容,可能都是外部数据,所以它的数据来源是多样性的。

第三,媒体自身对时效性的要求是非常高的。什么概念呢?就是说昨天一个新闻可能隔个一天或几个小时再去追踪的时候,可能就晚了。新闻生命当中,时效是最有价值的部分。所以媒体希望数据覆盖范围广,同时又希望这个数据的实效性足够高。其实我总结下来,媒体本身对于数据的需求大概有这三方面的特征。

 

搭建数据中台需要什么样的能力?

我们再往下拆解的话,就可以围绕这三个特征来讲讲数据中台需要构建什么样的能力。

第一就是数据汇集的能力,以前我们获取数据,找我自己的技术部门就能够把这个数据收集的差不多了,然后围绕这些数据做平台或者模型的建设。今天除了自身业务数据之外,你可能还需要第三方的数据合作。所以从中台的能力要求角度来说,汇聚数据源进来是首要条件。同时数据内容的多样性又会要求不能只接收某种类型的数据,我还希望能够接收各种富媒体的数据,这属于中台需要构建的首要能力。

数据已经进来了,你还要做什么?其实在我看来,就是识别的能力。为什么叫识别的能力?原因就是因为它是非结构化的,你能不能把占领数据总量90%以上的这种非结构化数据结构化,这个其实是整体平台,最核心的内容。围绕识别能力的建设,在我们看来有这几点。今天我们对于内容的结构化实非常关键,比如说推荐。当然你也可以说,我完全可以基于深度学习的模型,我不需要去结构化,我只需要把大量的文本和用户行为串联起来,就能够做推荐。我觉得现在我们还无法完全以深度学习的方式把这个事情做好,还是需要识别内容到底是什么。除了文本型的内容之外,图像的、视频的内容我们能不能结构化?围绕这些结构化的数据再构建业务服务性质的内容。

新闻分类标签体系


除了内容本身,我们还需要对我们的用户结构化。当然用户画像这个概念其实已经提了蛮久了,大家经常都会做用户标签,不管是内容分发也好,还是运营规划也好,很多时候都会做用户画像。今天在媒体行业当中,我们也会去做用户画像,但是媒体行业有一个特征:媒体行业可接触到的用户的基础信息是比较少的。

回过头来,今天在媒体这个业务场景下,我们如何去刻画我们的用户?这其实需要借助另外的手段。我们需要根据我们对内容特征的识别,以及用户和内容之间的链接关系对我们的用户进行刻画,然后基于这些用户特征和内容特征之上再去构建上层的推荐或分发策略。除这两块最核心最基础的识别能力外,我们还会对我们的工作人员,包括编辑记者,甚至我机构本身进行识别和刻画。围绕这些基础能力的识别和刻画之上,我们才能做智能化。围绕一篇文章,除标题、发布时间等基础内容外,还要识别机构,识别情感的变化,识别他的正负向,其实理论上都可以通过这些内容本身对它进行识别和刻画

左侧是我们现在正在做的分类和标签体系。文本刻画之外,我们还涉及到一个视频识别能力,大家都说这个东西好难,我们到底在什么地方去用它。举一个简单的例子,比如今天我们在这一起讨论新媒体,我们有一个实况转播,上面有人讲,下面有人听,但整体这些内容最终会变成一个视频流在网络上流转。我们有没有可能未来再去做检索的时候根据人脸识别的方式,把某位老师讲的topic的内容从视频流中截取出来?另外,能不能把字幕上语音识别的内容通过搜索的方式,找到我想要关注的片段。比如有人说我记得之前在某一次分享大会上有一个分享数据中台的,那我搜索“数据中台”是不是就能够把这段演讲的内容获取下来,这些其实都是未来可作为直播视频流,在做二次的创作和传播时很基础的内容。不至于直播结束后,几个小时的视频资料就这么丢在我们的硬盘里,无法被二次使用。这是视频相关的能力。

然后回到数据建设本身,我们也会在这个数据中台的体系构建更多数据主题的内容,比如说气象、比如刚刚提到的地震,这个就是一个很好的例子。地震本身的监测数据能不能快速在媒体传播,不只是有传播的效益,其实还有更多社会化的效益。数据本身内容的产生和内容创作传播过程的结合,其实能够产生更多的场景和社会效益。比如在生态中,我们可以去构建气象的主题,另外我们还会构建金融主题,比如说就像刚才提到的就是40年的进出口数据,理论上我们可以把它放在金融主题当中。当然还会有其他的,比如体育、娱乐等等,这些内容其实理论上都可以作为这个数据中台主题建设的一部分。数据的主题内容越多,其实代表了平台的能力越大

 

刚才其实更多讲的是基础能力的构建,围绕这些能力本身,我们需要根据自身业务诉求在业务场景结合部分做服务化的事情,比如智能服务、分析服务等等。我认为围绕着数据能力建设本身构建的服务层,是区别平台和中台最大的一个特征点。以前做一个平台的思路是,把数据汇集起来计算就好了,你需要什么数据直接去平台拉。但现在如果演化成一个中台,其实更多的是要能够把这些数据、能力和业务结合起来,这才是中台和平台最大的区别。

最后还有一点就是时效性,媒体对于数据中台技术上的要求不再是仅仅是处理更大批量的数据,此外还要优化数据处理能力的时效。也就是说今天既需要大数据的计算能力,也需要实时数据的计算能力。这其实也是我们对基础计算能力的要求。

最后我们总结下来,对于一个数据中台的整体架构大概分为这么几个部分: 数据汇集的能力、数据中心、能力建设、服务中心。

在此基础之上的业务部分,需要解决更多的是,企业业务的场景是什么?我的业务诉求是什么?以及我对能力数据能力的要求是什么这类问题,当然这些都是依赖底层数据能力建设的部分。

今天我分享的内容大概就是这些,谢谢大家。
上一篇第四范式资深科学家王嘉磊:Au...
下一篇 阅文集团陈炜于:如何利用人工智...
猜你喜欢
09-02

总编辑论坛将在京举办 先荐邀您共话媒体经营

图片
08-09

推荐系统的工作流程

图片
08-14

推荐系统:协同过滤及其利弊

图片
08-29

用于推荐系统评估的概念与指标(2)

图片
08-05

白话推荐系统

图片