首页>技术分享>博客详情
封面新闻徐桢虎:封面新闻的智能化创新与实践  
第四范式先荐在2050大会上召集了《新媒体结合人工智能后的裂变》主题的新生论坛,徐桢虎在论坛上分享了封面传媒与人工智能结合的一些应用实践。以下是演讲实录:

演讲嘉宾简介:徐桢虎,封面传媒总经理助理兼数据研究部总监,西南交大计算机硕士,研究方向是数据仓库与数据挖掘。在封面传媒主要研究媒体领域AI应用的研究和落地。

今天想和大家分享封面新闻的智能化的创新与实践。刚才两位老师主要分享了一些技术细节,包括很多算法方面的应用细节,我今天主要分享一些应用实践。

 

“移动互联网对传播场景的改变最为深刻”

封面新闻是从传统媒体转型过来的,我想先给大家讲一下媒体的演变。从17世纪50年代报纸发明以来,它一直是人们获取资讯最主要最核心的渠道。一直持续到上个世纪20年代,电视出现了,电视部分取代了报纸在第一时间获取资讯和信息的地位,但报纸仍是最主要的渠道。上个世纪90年代后期,互联网发明以来,互联网确实能够更快的传播这些信息,但是当时还是报纸的读者还是很多。压垮报纸作为人们获取信息的主要渠道的最后一根稻草,是在2008年2009年智能手机开始流行之后,移动互联网对传播场景的改变是最为深刻的,大家可以看下时间轴,传播载体的进化是越来越快的。

封面传媒总经理助理兼数据研究部总监徐桢虎


技术会深度地改变我们的传播,包括从传播者、内容渠道,到传播对象和效果,将是一个全方位的改变。新闻素材的收集、筛选、成文、审查和内部分发,新技术都会深度参与。

谈到AI赋能,并不是说让AI技术取代媒体,而是赋能,让人做人更擅长的事,让机器来做机器擅长的。媒体具有原创采编权,尤其是处理一些深度的报道,这部分工作用技术是没办法替代的。媒体人专业方面的优势和AI高效智能生产可以有效结合。

另外是和更多新技术的结合。新技术的应用在媒体传播方面是很多的,MR呈现新闻实景,包括信息安全,还有数字资产管理和版权,还有一些物联网的技术,这部分应用给了媒体更丰富的想象空间

2015年的10月28号,为了推动华西都市报的整体转型,封面传媒成立。2016年5月4号,封面新闻APP上线,定位亿万年轻人的生活方式。我们是一家媒体机构,也是一家科技公司,我们致力于“AI+媒体”的探索和实践。华西都市报是中国第一家都市报,我们做了20多年的媒体新闻,有丰富和专业的媒体运营经验。另外封面新闻拥有一类互联网新闻信息服务采访资质,这个国内只有两家,一个是封面新闻,一个是澎湃。我们也和头部的平台一起共建合作媒体实验室。

 

封面的智能化应用实践

下面我重点介绍下我们智能化的一些应用。第一是NLP自然语言处理的应用,这部分技术主要用在APP里面。包括新闻的推荐、搜索、敏感词、新闻的分类摘要、知识图谱都会有相关的应用。

第二部分是视频应用,包括视频理解、审核、视频标签体系的建设、短视频的制作。

第三部分是内容生产的自动化。三审三校、纠错、标签优化和考核打分。媒体内容生产和新媒体不太一样,它是有一套比较传统复杂的流程的,尤其新闻审核是比较严格的。

这个图是我们用户画像的一个特征模型,主要包含了几个大类:用户的基本属性、关注新闻的类别、APP使用偏好、用户的社会特征和价值属性、用户的个人偏好。

 

这部分数据除了用于数据分析之外,另外还会用到我们的推荐算法里,推荐算法里包括内容特征、用户行为特征、用户画像、敏感信息过滤机制和黑白名单。

推荐的技术细节刚才第四范式的老师已经讲得比较详细了,技术细节我就不再做更多阐述。推荐我们主要是三层,一层是召回,二是Rank层,三是Rerank层。召回层看重内容特征的应用和搜索排序,Rank层主要根据用户行为和特征信息,Rerank层跟算法关系不是太大,主要是一些敏感信息的过滤,包括黑白名单以及文章分类的权重的判定

对于资讯类APP,新闻的搜索是一个比较典型的应用场景,之前我们新闻搜索的用户点击不太好,我们优化做了几件事,一是增加用户的历史收藏和历史搜索记录,二是增加每天热搜的情况,包括每天热点新闻。三是对我们APP上用户话题的聚合

中间这幅图展示的是我们新闻的播报,它会先生成新闻的摘要,然后播报新闻的主要内容,我们有车载模式,它会自动生成一个新闻播报的一个列表。

最后一个是城市资讯的自动分发,从它标题和内容的搜索来判定,把它自动分发到各个城市频道。

(图)这是我们在新闻知识图谱上面的一个应用。场景主要有两部分,第一部分是我们的对于事件的深度挖掘,包括新闻事件的脉络、新闻人物之间的关系的一个挖掘。

黑色的部分是一个比较典型的三元组的使用。娱乐新闻的每个标题,会按照人物和事件分成两大类,事件会有更具体更细节的标签。对于一些娱乐八卦的话可以直接映射到下面的一个人物关系图,比如说某一个事件的相关人物、人物关系、相关动态。新闻主题的聚合也可以用,比如某个热点话题,高房价、教育问题,或者娱乐八卦的一些事件,它可以方便地把新闻的前因后果和相关新闻聚合在一起,方便新闻编辑去制作相应的专题。

新闻知识图谱第二块是体育赛事资讯的应用,这方面我们应用比较早,从2016年就开始在用。尤其是在一些大型的赛事中,有很多背景信息是可以挖掘的,包括体育项目,场馆以及球员,运动员信息,点击进去可以获取到那个人物或者是具体的知识图谱信息。我们2016年的欧洲杯当中有应用,后来在奥运会和去年世界杯都有具体的应用。

视频理解和审核这部分我们和外部供应商合作,我们不是简单购买它的服务,针对一些涉黄涉暴涉政的一些场景,我们有深度合作,会做一些定制化的应用和开发。

封面传媒总经理助理兼数据研究部总监徐桢虎


视频标签体系建设我们以视频的主类别、子类别、关键词、定制主题分为三层标签。

给大家介绍下我们的AI场景应用方向,主要有三个场景,第一是内容生产场景,主要是包括机器写作、智能分发、还有辅助写稿以及MR传播、AI主播。第二是社交互动场景,这里人机交互会多一点,包括人脸识别,还有积分反作弊。第三是活动营销的场景

关于内容生产先介绍一下我们在文本生成方面的一些应用,主要是三个方向,第一个是卷积神经网络,可以根据一个序列去预测下一个词或者下一个字。

第二部分的文本生成是seq2seq,根据一个文字序列来预测生成另外一个序列。比如根据床前明月光预测出疑似地上霜。

第三种对文本序列这类离散对象分布中GAN的采样过程求导困难,参数难以更新。所以实际应用也比较少一些。

回到内容生产场景的应用,主要有两个类型,第一类是从数据到模板到算法,典型应用是机器写作和聊天机器人。第二类型是从算法生成到人工筛选或者标注,最后再进行迭代的优化。然后典型的应用,包括古体诗、现代诗,还有短文的生成、对联,歌词这一类。

介绍下机器写作,它在流程上主要是一个触发的机制,从触发机制上说的话主要有三大类,包括数据、时间、事件的触发,不同类型,有不同的区分。重点考虑几个方面,包括内容选取、内容生成质量的判定,内容的丰富增强。

讲一个具体的实例,这是一个地震新闻生成的一个案例。首先我们会拿到机构的数据,第2个我们和成都地震减灾所有合作,可以拿到他们的实时数据。获取数据,有相应的地震信息之后,我们会去检索我们后台的知识库,包括几个方面,一个是百万级的一个地理数据检索系统,二是过去50年的一个全球历史地震数据信息,三是当地的一些百科、天气等相关的知识图谱,然后汇总生成图文的一个素材,还有模板的渲染,文章质量判定和安全性的检测,最后再推送到分发渠道上。生成的内容包含一些地理信息,具体的详情再到详细情况,历史上的一些地震的发生情况,在这个区域内的发生情况,附近的天气等,都会有比较完整的图文呈现。它可以在几秒钟之内就生成内容,这一块是比较实用的。

 

机器自动生成600多篇世界杯资讯

再说几个比较典型的应用,最左边是去年世界杯的时候,我们APP中关于世界杯的资讯推送,基本上全是由机器自动完成的,总共推送了600多篇。包含一些赛前预测,进球快讯,赛后战报。这篇文章是法国1:0击败视界杯半决赛,这个推送时间是在2018年7月11号凌晨3:54,也就是比赛刚刚结束的时候,完成了相关新闻的推送,后来比赛推送基本不太需要人工干预了,可能需要补的就是一些现场的进球的实时配图,有些可以后补。

封面新闻APP上有一个写作专栏,目前可以写作的文章包含10多个大类和40多个小类,这方面的话应用都会比较多一点。

这部分的话是我们的做的机器写诗。有古体诗,也有现代诗,我们在封面新闻APP上开了一个专栏,华西都市报上也有一个专栏,专门刊登这些诗。

可视化视频我们主要应用场景是财经金融和突发报道,财经新闻可能多一点。这个图是我们MGC机器写作视频生成系统生成的,包含了一些财经政策、大盘回顾、股市行情。这部分应用可以直接应用到内容生产中。

大屏可视化的,主要是对这些技术应用的展示,我们用得最多的两个知识库,一个是体育知识库,一个是娱乐知识库。还有生活资讯,主要是商场的一些打折资讯,在地图上的呈现。右边是反作弊的一些统计和机器写作的文章。

再结合几个场景解构一下。在2018年世界杯的时候,我们主要应用了几块AI应用,包括新闻自动分类,甚至包括各个球队、球员、整个赛程方面的。我们还用AI做了一个机器人预测比分,做了一个积分竞猜的活动。我们还可以对球队、球员进行定向的关注和推送,只要你关注这个球队的话,关于这个球队所有的资讯都会推送给你。

另外讲一下AI对于新闻生产流程的一个智能化的变革,主要是三个平台,第一部分是智慧内容平台,主要做热点的监控、全网采集、内容管理和融合驱动型直播应用。第二个是智能技术平台,包括机器写作、算法推荐、视频生成和文本理解。第三个是智识管理平台,包括传播效果监测、版权追踪追溯,考核自动化、内容价值观

 

封面传媒总经理助理兼数据研究部总监徐桢虎


封巢—内容生产智能化平台

封巢是我们基本上从零打造的一套内容生产的智能化平台。它主要解决的是媒体内容生产最主要的几个流程,策、采、编、审、发、考。考就是考核。我们主要是通过技术倒逼,然后流程再造,这一个流程虽然不是每一家都适用,但是对于传统媒体的话,是一个必须的过程,我们是从传统媒体转型过来的,所以我们也是在用户需求和技术能力之间,寻找平衡点。

这套系统包括热点的监控系统、全网的采集系统,还有内容管理、传播分析,还有一个基础管理系统。它们是三端合一的,编辑和记者有不同的应用场景,包括PC端、大屏端和APP端,APP端是专门给记者和编辑用的。对于记者,尤其是长期在外面跑的记者,以前信息可能通过QQ、邮件这些方式来传输,现在可以通过我们内部生产的APP,直接上传所有的新闻素材。

封巢里面也有一些小工具,比如辅助写作,记者在写稿的过程中,直接输入新闻标题和新闻正文,会实时生成文章的主题词、敏感词、标签、文章的摘要和建议推送的频道。另外也能链接一些根据关联词出来的相关内容,会有历史相关文章的推荐和排序,记者可以点击阅读全文,把以前文章的内容插入当前文章中。

我们的“人工智能与未来媒体实验室”,主要是推动人工智能与传统媒体的一个技术创新的融合,我们经常有专题讲座和研讨,有一个《AM》杂志,另外也会做一些产品研发。我们希望做成国内媒体的一个标杆,把技术产品化,应用平台化。研究方向主要是视频理解、AI辅助创作、内容传播创新

 

我的分享就到这里,谢谢。

 
上一篇阅文集团陈炜于:如何利用人工智...
下一篇 五彩传媒创始人陈旸:如何使用A...
猜你喜欢
08-13

推荐系统:基于内容的过滤及其利弊

图片
07-11

“人工智能+新内容”论坛之圆桌会议二:从1到N,如何快速实现...

图片
08-19

推荐系统如何处理数据?

图片
09-04

案例|推荐系统的评估指标

图片
09-02

总编辑论坛将在京举办 先荐邀您共话媒体经营

图片