首页>技术分享>博客详情
阅文集团陈炜于:如何利用人工智能技术提高网文生产的运营效率?
在杭州云栖小镇举办的2050@2019大会上,“第四范式先荐”召集了《新媒体结合人工智能后的裂变》主题新生论坛,来自阅文集团的陈炜于分享了如何利用人工智能,提高网文生产整个周期的运营效率。以下是演讲实录:

演讲嘉宾简介:

陈炜于,阅文集团智能业务中心负责人,负责阅文集团的智能技术建设,包括推荐,搜索,用户画像,文本挖掘,内容风控等数据智能方向。曾在百度负责精准广告系统,用户画像系统,百度推荐,用户线下大数据,新零售等项目的研发工作。

今天非常开心来到这里向大家分享我们的工作内容和实践感悟。首先做一下自我介绍,我叫陈炜于,来自阅文集团,负责整体的智能业务版块。接下来我将先从网络文学的历史谈起。

 

网文的发展历史

 

其实从1994年中国进入互联网时代起,网文就已经开始发展了,那时候主要是在水木清华BBS上传播。1998年,痞子蔡的一本书出版,业内普遍认为这是中国网络文学发展的元年。

2002年,起点中文成立,它是阅文集团的前身。2008年,盛大文学成立,收购了起点中文网、红袖添香等小说网站。2013年腾讯文学成立,2015年整合盛大文学,成立了阅文集团。

2017年年底阅文集团在香港上市,作为行业领先的一个IP培育平台和数字阅读平台,我们旗下有多款阅读APP,包括起点读书APP和QQ阅读APP,同时我们拥有1000多万部作品储备,还有770万名创作者和数亿的用户。

接下来进入今天的主题,谈谈我们如何把人工智能和内容运营进行结合。

 

技术架构


“网文内容生产和运营是一个漫长的周期,通过智能可以撬动周期,加快提速”

一篇网文从生产到最终体现出它的价值,会经过很多步骤。第一步,作家会去写一些主题的网文;第二步,我们平台方需要去审核网文的内容是否合规;第三步,如果内容合规,且判定这个网文是有优势的,我们会进行签约,再把内容输出给读者,然后作者可以获得一些收益。内容在电子阅读市场获得一些收益后,还可以作为IP授权改编成影视、动漫或者游戏作品,获得一些额外收益,这叫做内容增值。

从整体的内容生命周期来看,这其实是一个非常漫长的一个过程。举个例子,在内容消费阶段,一篇文章写出来到完结,可能需要经历一年到两年的时间,再到它孵化出来IP可能需要3~5年的时间,周期很长。我们是希望通过智能去撬动整体的一个周期,去加快整体周期的一些提速,进而能够更快的去形成一些内容的变现,这块我们统一叫做阅文的内容大脑

 

智能内容生成:下面介绍一下我们阅文内容大脑具体如何赋能这五个阶段。第一块是在作者的内容生成阶段,阅文内容大脑可以帮助作者做一些辅助的内容工作,比如一些前文回顾,还可以帮助预测内容趋势,譬如最近现实主义的戏很火,内容大脑可以推出来最近可能会比较火的现实主义网文。比如《战狼》出来后军旅片比较火,那军旅相关的IP可能就会很吃香,可以把这些趋势反馈给作者,让作者来写一些军旅类型题材的网文。

智能内容审核:第二方面在内容审核阶段,我们可以帮助内容审核做一些智能的反黄反黑涉政的识别,以前每篇文章都需要经过人工来审核,代价是比较大的,通过智能的手段可以帮助内容审核的效率提升

帮助编辑识别优质内容:另外在编辑内容的签约上,我们在内容识别的时候可以更高效地识别一些低质书。以前编辑与作者签约之前,必须把全文两三百章的内容看完,工作量太大了,编辑们每天可能只能看一部作品,这样效率比较低,我们帮编辑去做一些智能低质识别的工作,通过文章的标签识别我们可以判断该文哪些标签是现在比较热门的,哪些标签是现在没有的,帮助我们更好地去判断这篇文章的一些内容。

智能推荐:内容签约结束后,我们就会推送给读者,让读者进行内容消费,这里还会用到内容智能分发、推荐、搜索等等一些提高内容分发效率的手段。通过内容大脑更好地理解内容后,就可以帮助推荐做更精准的内容分发。其中包括像推荐理由、导语、内容匹配度以及标签展示、感知增强等方面的建设

 

帮助IP上下游加速理解内容 实现内容增值:最后一个在阅文是比较特殊的,就是IP的内容,我们现在不仅仅是做网文,还需要网文做更多价值的泛化,如果说网文的价值是1, IP的价值可能是100,要从1做到100,我们需要去挑选哪些内容是值得我们去投入的,哪些内容是在未来有很大市场空间的。通过阅文内容大脑可以通过内容理解,帮助IP的上下游更快速地了解一篇网文的具体内容,它的架构、世界观是否值得改编,它的背景是否是宏大,预期发展规模如何。这些工作以前是每个IP上下游把全本书都简单看一遍,但很多网文都有上千章的章节,整体的效率其实是极低的。

所以我们阅文内容大脑,都是为了赋能整个内容流转效率而服务的。

阅文集团陈炜于


 

阅文内容大脑技术架构

接下来再讲一下我们阅文内容大脑的整体架构。首先通过我们的AGC数据和UGC数据,AGC数据就是作者生产的数据。第二个就是UGC数据,比如在每篇内容下面,会有很多的评论,还有一些书单,书单是一个PGC数据。我们把所有数据给进行整合,形成一个基础的信息库,这一步是把数据变成信息的一个过程

有了信息后,我们再做一些知识挖掘,知识挖掘采用了自然语言处理,包括实体的识别,它是讲人的?讲地点的?讲事件的?还是讲一个物体的等等。第二个是三元组的提取,三元组就是主谓宾,比如某某战胜了某某、或者某某把某某打死了等等。然后结合我们自己的行业知识,我们行业有很多新的输入,包括角色的一些关系,整体事件的脉络,整体世界观架构的设计等等,这些知识结合起来,形成阅文自己的一个知识图谱基于这些知识图谱,我们在上层做一个知识的表示,就是把挖掘完的知识通过可视化的手段展现出来特别是展现给编辑读者,因为底层的知识是看不出太多含义的,但是通过一些可视化手段,就可以很好地理解这个知识是代表什么东西。

第四步就是知识的一个应用。知识在挖掘出来以后,会再次产生出一些应用,赋能到业务端的一些内容生产、分发、消费和增值上面

整体的阅文大脑架构就是这样,今天我会重点介绍内容理解这一方面。因为只有真正做到内容理解,我们才能对整篇网文内容做更好地了解。

 

陈炜于分享他们如何通过人工智能更好地理解内容


 

第一步其实是词粒度,就是如何把一篇文章归纳到一个标签,归纳到一个词,能够让读者很快知道这篇文章讲的是什么故事。举个简单例子,看爽文,爽文就是它这篇文章节奏非常快,看了很爽,读者能够通过这种标签化很快就可以get到这篇文章大概是什么类型。

另外一个是句粒度,通过标签粒度我们只能得到具体的一个信号点,但是通过句粒度,我们可以输出一些跟这篇文章相关的一些情况,能够更好地在语意上面进行一些聚焦

第三步是考虑网文这个比较特殊的场景而形成的长文粒度,现在业内所有的理解是基于短文粒度的,比如说新闻资讯,但是长文粒度是最近才开始进行一些研究。长文粒度和短文有很大的不同。比如像2000章左右的网文,他需要去提取每一个事件的脉络,去提取整体网文的人物关系

最后一个是机器上面的隐向量粒度,就是通过我们前面识别的一些结果,是人可理解的标签也好,兴趣点也好,关键句也好,让机器自动去理解计算,把每一篇文章投影到高维向量里面,得到一些隐含的向量知识,直接供机器使用

 

内容理解中的词粒度

然后讲一下词粒度化,我们其实整体梳理了网文中一些词的表示,第一块就是最上层,最上层其实是一个分类。这个分类是业内已经约定俗成了的,经过很长时间积累得到的一些具体的分类。

中层是我们在建设的一些标签,这种标签是从我们自己权威的边际角度出发,用标签描述一些内容,包括像穿越、鉴宝、悬疑、吐槽、学霸,校花等等,都是我们整体标签体系中的一些标签关键词。

 

最下层的标签量还要更大,上层分类大概是百级别数量的一个分类,中层标签是千级别的数量。泛化到下层,是万级别的兴趣点向量。举个例子,诸葛亮、孔明、貂蝉,这些都是有可能出现的一些兴趣点。包括篮球、足球、羽毛球等。

所有这些标签化可以做相互的对应关系。比如像下层的标签孔明,貂蝉,可以映射到中层标签的某一个历史朝代,然后再映射到上层,比如说历史的一些小说等等,他们都有一些关联关系。

 

内容理解中的句粒度

接下来讲一讲句粒度,通过一些简单的物料,比如说AGC物料和书单的UGC物料,去生成一个推荐语。推荐展示只有一个小豆腐块的位置,如何把网文丰富的内容浓缩展示在豆腐块里,这是一个有些技术难度的任务。

现在展示一般都展示简介,只是通过简介大部分人是看不懂这篇文章到底是讲什么东西的,所以我们通过AGC和UGC的一些数据提取了一些推荐语,推荐与生成的话主要是从我们AGC或者UGC数据里面去抽取,把语义比较强、表达能力比较好的一些句子抽取出来

第二个是通过智能生成,通过翻译的手段去关联,把语义相近的一些词翻译过来,形成一些新的句子。通过这两个步骤来形成一个网文的推荐语的候选。然后再在下面做一层筛选,比如根据点击率做排序,再进行一些精细化的优选。

 

内容理解中的长文结构

接下来讲讲我们对长文结构的理解,第一条线是对于人物线的理解,第二条线是对事件线的理解。事件线方面我们需要准备一些候选三元组,就是什么人在什么地点做了什么样的事情,或者是对某人干了什么样的事情。然后在上层会做一个角色的识别,以及实体的对齐,把角色识别出来,是人还是一个物体,这个人是不是主角,和其余人是什么关系等。

第二步,基于角色的识别去抽取他们之间的关系。每章每句都去挖掘它的事件,然后再归纳起来,最后全文形成一个整体的事件脉络。

事件脉络还会引入一些用户行为的数据,因为用户只有在关键情节才会花大时间去阅读。

内容理解—隐含向量

第四个是内容的隐含向量,向量就是每一个内容都有很多的属性,包括兴趣点、作者、标签的属性,他们之间都可以构成一个图,如果在图中随机游走的话,可以得到一条条复合序列。通过学习这些生成序列中的近邻关系,得到每个节点的隐语义向量表示。

今天的分享就到这里,谢谢。
上一篇新华智云首席数据官李金波:数据...
下一篇 封面新闻徐桢虎:封面新闻的智能...
猜你喜欢
08-18

推荐系统:混合过滤

图片
09-11

流式计算的应用特征

图片
08-19

推荐系统如何处理数据?

图片
08-18

推荐系统:算法概述

图片
08-28

用于推荐系统评估的概念与指标

图片