百度NLP | 智能写作机器人:不抢人类饭碗,我们只想人机协作

2016 年,百度全面发力内容生态领域,借助人工智能 (AI)、自然语言处理 (NLP)、深度学习 (Deep Learning) 等技术和百万级别的用户标签,推出个性化信息资讯流,与此同时,百度战略级产品「百家号」2017 年预计将向内容生产者分成 100 亿,以此鼓励个人和机构入驻参与内容创作。

而在众多内容生产者之中,一位特殊的「作者」显得格外引人瞩目——那就是在去年上线的百度智能写作机器人(Writing-bots)。据了解,目前百度智能写作文章可涵盖社会、财经、娱乐等 15 个大类,并可实现体育新闻、热点新闻等多领域全机器创作。

 

图 1:百度智能写作机器人文章示例

而从目前写作的文章来看,百度智能写作机器人在语言组织、语法和逻辑处理方面都已具备了相当的能力,甚至可以熟练地使用专业术语对新闻事件进行分析,写作质量几乎可以贴近人类的水平。

那么,百度智能写作机器人究竟是如何写稿的?未来机器写作是否有望取代人类?带着对这位「神秘作者」的好奇,我们与百度智能机器写作团队展开了一次对话,试图揭开机器人写作背后的奥秘。

Q1. 为什么会想到让机器人写稿?百度智能写作机器人的研发背景是怎样的?

:2016 年,百度确立了「搜索+信息流」双向智能适配的信息分发 2.0 模式,由于资讯流产品和百家号的迅速发展,用户资讯阅读需求呈现出了较大的增长,与此同时,我们发现,一些用户感兴趣的内容,比如彩票、股票、旅游等话题,却很少有资讯文章涉及,因而存在着大量资源的短缺,于是我们就希望结合百度自然语言处理、大数据分析、人工智能等技术优势,通过机器写作的方式,聚合全网信息和百度优质资源,快速生产文章满足用户的需求,实现用户兴趣点的快速(分钟级快讯)、高效(省时省力)、高覆盖(中长尾)满足和资讯内容的深度定制以及个性化推荐,从而在内容生态里面帮助生态自建。

Q2. 目前百度智能写作机器人可以写作哪些类型的文章?是否可以实现原创?

:目前我们的智能写作机器人产出的文章主要有三种类型:速报类、知识类和资讯聚合类。速报类,如比赛信息、股讯快报等,对时效性要求比较高,需要瞬时将结果生成文章。知识类主要是科普类的文章,如教育(诗词、历史知识)、生活(菜谱,保健知识)、旅游等。知识类文章的数据内容主要来自百度的知识库和全网优质资源,通过对优质数据资源的组织聚合和计算推理,为用户提供更加丰富的知识和信息。而资讯聚合类是基于全网实时资讯数据,根据用户关注点,生成用户感兴趣的、以话题为中心的资讯文章,比如某一个电影热映,我们会对电影的主演、之前的作品等信息做一些扩展和盘点;对于热点事件,我们会对事件的发展过程和关键信息进行分析聚合,形成事件脉络,便于用户了解事件全貌等。这类文章是在现有的资讯信息基础上,重新智能聚合生成新的文章。

从技术方案上看,主要分为两类:

  • 一类是基于结构化数据、知识库或优质资源直接生成的文章。速报和大部分知识类文章是基于这类技术方案。这类文章因为直接从数据通过分析聚合或知识推理生成原始稿件,因此可以说是原创。
  • 另一类是在已有稿件的基础上通过内容分析聚合生成的新的文章。大部分资讯聚合类文章,如话题盘点、事件脉络、热门要闻回顾等都属于此类。因为是基于已有稿件内容创作新的稿件,因此可以看作是二次创作。当然,我们也可以在一篇文章的生成中结合上述两种技术,进行混合创作。

Q3. 百度智能写作在技术上是如何实现的,基本的创作流程是什么?

:我们的智能写作整体是基于大数据分析、内容理解和自然语言生成等技术得以实现的,基本创作流程主要分为数据采集、数据分析、自动写稿、审核签发等环节。其中核心流程「自动写稿」部分通常还包括文档规划(document planning)、微观规划(micro-planning)和表层实现 (surface realization) 三个阶段,分别解决稿件写什么、怎么写以及如何润色呈现的问题。比如文档规划,需要确定写什么内容,采用什么结构来写,微观规划则更加细致化,具体要确定怎么来写每个段落、每个句子、每个标题以及内部的结构组织等。表层生成,则是对文章整体的润色和改写,比如如何调整文章格式、给文章配图等。

图 2:百度智能文章生成过程


Q4. 百度智能写作有哪些特点和优势?实际应用情况如何?

:目前媒体报道的写作机器人大多面向体育、财经等特定领域,我们的智能写作文章类型更加多样,覆盖的领域更为广泛,并且可以实现个性化的推荐和订阅。总体来说,实际的用户需求、大规模数据资源,先进的技术积累,以及产品应用中的反馈迭代,形成了百度智能写作的独特价值和优势。

我们的智能写作的文章类型和话题源于实际的用户和产品需求。根据对资讯流产品内容分布和用户兴趣点分布的分析,我们确定了三类文章类型:速报类、知识类和资讯聚合类,分别用于改善产品中三类需求满足问题:高时效性需求,中长尾需求,和热点话题信息的高效获取需求。在具体话题的选择上,我们根据用户兴趣点分布确定话题覆盖优先级。目前百度智能写作的文章已经涵盖电影,美食、旅游、汽车、创业、房地产等 50 多个话题,涉及社会、财经、娱乐等 15 个领域。

百度在数据资源和人工智能技术方面的积累为智能机器写作的研发提供了有力支持。

在数据方面,除了海量的全网优质数据,百度拥有大量的自建高质量数据,包括百度阿拉丁(优质资源开放平台)、百度知道、百度百科、知识图谱等,不仅可以支持基于结构化数据的文章生成,还可以支持基于内容聚合方式的文章生成。百度阿拉丁的时效性结构化数据,如体育比赛、彩票、股票信息、恶劣天气预警等,是速报类文章生成的数据基础。百度百科、百度知道和知识图谱是知识类文章生成的重要数据来源。以百度百科中的城市百科为例,城市百科中包含了大部分城市的景点、美食、文化排行榜数据,这些数据与对应景点、美食的描述数据相结合就可以生成城市旅游、美食、文化的介绍文章。同时,基于海量的用户行为日志数据,可以准确地捕捉对这些内容感兴趣的用户,就可以实现生成内容的个性化推荐和满足。

在技术方面,百度在内容理解、语言生成、知识推理、机器学习等方面的技术积累,是智能机器写作的重要技术基础。以资讯聚合类文章生成为例: 首先,聚合类文章的话题选择和资讯内容获取是基于内容理解和用户理解技术。利用百度自建的关注点图谱(主题、实体、事件标签以及标签间的关系)和标签预测技术,我们为每篇资讯内容打上关注点标签,同时根据用户的搜索或阅读行为可以获得用户的关注点标签,即用户的兴趣点。这样就获得了用户感兴趣的话题,同时基于内容标签可以获得相关话题的资讯内容。其次,基于内容理解和生成技术对于同一话题的内容进行压缩和聚合,相关技术包括:事件分析,话题聚类,事件脉络抽取,自动摘要,标题生成、结构生成等,而机器学习和知识推理是这些技术实现的基本方法。图 3 以事件脉络型文章的生成为例说明聚合类文章写作中所依赖的主要技术。可以看到,百度深厚的技术积累为智能机器写作提供了有力的技术支撑。

 

图 3 事件脉络型文章生成主要技术

目前,我们的智能写作机器人在百家号和百度资讯流产品中已累计发文近万篇,阅读量超过千万。图 4 是智能机器人写作的新闻实例,包括通用领域新闻,生活新闻,体育新闻等。随着产品的应用,我们可以积累更多数据和用户反馈,不断实现技术的更新迭代。

 

图 4:百度智能机器人写作应用实例

Q5. 智能写作技术上最大的难点是什么?百度未来是否会尝试深度文章的撰写?

: 人类作者在撰写文章时通常会对数据、内容和话题进行深入理解,并可以进行演绎、推理和联想,从而完成更深入的报道,充分表达自己的观点和立场。而相比之下,机器则更长于数据分析和规范的写作,在自然语言深入理解,以及让稿件具有观点和立场等方面还有很大的提升空间。

在深度文章写作方面,我们也在做一些探索和尝试,比如情感分析等研究,力图让机器写作更贴近人类,甚至希望有一天它能有自己的立场和观点,更加人性化。但就目前而言,我们的智能写作机器人会更聚焦用户需求,偏重数据分析和客观文章的撰写,致力于帮助内容创作者减少重复劳动,节省更多精力去撰写更加优质的深度内容。

Q6. 百度智能写作机器人背后的团队构成是怎样的?

:我们的智能机器写作研发团队成员来自百度阿拉丁团队、NLP 团队、知识图谱团队、互联网数据研发团队以及质量保证团队等不同部门。研发初期主要通过小规模数据样本和简单的人工处理实现技术探索和原型设计,随着技术的进展和用户需求的增长,产品、技术、资源、平台等多个团队展开联动,着手推进更加成熟的产品落地。

Q7. 在内容创业迎来了新风口的当下,百度推出了战略级产品百家号,并以百亿分成鼓励内容原创,如何看待智能写作机器人与内容生产者的关系?百度智能写作下一步的发展目标是什么?


:我们认为智能写作机器人与内容生产者之间主要有两层关系:一是「代替」,将作者的重复性、规范性写作和客观数据聚合类劳动用机器进行替代,让作者可以更好的投入到深度文章的创作。二是「服务」,人工智能可以通过大数据帮助编写深度文章的作者,进行语料、素材的高效率搜集与初级加工工作,同时也可以基于行业的深度结构化数据完成基础数据分析及文章生成工作,服务于内容生产者,提升他们的写作效率。而这也正是我们智能写作的未来的发展目标——人机混合编辑。

Q8. 百度智能写作机器人与人类有哪些差异?未来是否会完全取代人类?

:智能写作机器人和人类相比可以说是各有所长,智能写作首先肯定是速度快,可以在短时间内搜集大量数据和信息完成创作,其次是有特别强的数据分析、收集能力。人一天看一百篇文章就很多了,但是机器则可以不知疲倦不停学习,随时随地收集和生产内容。尽管人类写作相对机器而言,时间较长,成本也较高,但人可以对一个事件进行演绎、联想,从更加丰富的层面上进行创作,表达自己的观点和立场,因而在深度撰写方面具有难以替代的优势,因此在可预见的未来,我们认为机器完全取代人类的可能性不大,智能写作机器人对于能够深耕文章内容、有独立观点见解的内容创作者而言,不仅不会成为「抢饭碗」的替代者,反而会成为帮助作者生产优质内容的贴心助理。

本文来源于"中国人工智能学会",原文发表时间" 2017-04-12 "

时间: 2024-08-03 06:19:06

百度NLP | 智能写作机器人:不抢人类饭碗,我们只想人机协作的相关文章

“机器人黑客”和“人类黑客”,究竟谁更牛X?

   讲真,黑客这种行当还是挺烧脑的. 根据那些顶尖黑客的血泪史,他们要搞定一个漏洞,绝非你想的那么轻巧.这就像搞定一个妹子一样,脑力上要谋划各种策略,体力上要给出各种姿势,是对脑力+体力的双重考验. 然而就是这样一个一般小白望而兴叹的"高壁垒"行业,居然出现了"抢生意"的,抢黑客生意的还不是别人,正是黑客自己研究出来的"机器黑客". 这种大写的作死,我有点儿服. 本文作者史中(微信:Fungungun),雷锋网(公众号:雷锋网)主笔,希望用简单

人机PK再掀热潮 国内首个智能问答机器人勇闯《芝麻开门》

中介交易 SEO诊断 淘宝客 云主机 技术大厅 9月16日晚22点,一位"重量级"神秘嘉宾将空降江苏卫视大型公益游戏闯关节目<芝麻开门>现场.作为节目开播以来首位"非人类"挑战选手,也是国内首个智能问答机器人--百度机器人"小度"登台闯关,人机大PK的精彩赛事引发现场高潮不断. 江苏卫视<芝麻开门>将迎国内首个智能问答机器人参与挑战 从预告片中看到,小度机器人不仅拥有百度熊的呆萌外表,更是"懂人话.会吐槽.爱耍宝

学习笔记TF059:自然语言处理、智能聊天机器人

自然语言处理,语音处理.文本处理.语音识别(speech recognition),让计算机能够"听懂"人类语音,语音的文字信息"提取". 日本富国生命保险公司花170万美元安装人工智能系统,客户语言转换文本,分析词正面或负面.智能客服是人工能智能公司研究重点.循环神经网络(recurrent neural network,RNN)模型. 模型选择.每一个矩形是一个向量,箭头表示函数.最下面一行输入向量,最上面一行输出向量,中间一行RNN状态.一对一,没用RNN,如

智能问答机器人

    智能问答机器人目前已经在自动化客服领域得到了广泛的应用,取得不错的效果.这种技术可以比较好地使用在各种咨询类的场景中,如售前的导购.售后的服务.医院的导诊.甚至医疗的辅助诊断等等.机器人可以迅速地响应用户的请求,提升服务的体验.也可以同时服务大量的用户,极大降低企业提供服务的成本.智能问答机器人一般采用一问一答的方式,高级一些的会采用多轮对话和主动对话的方式,主动澄清用户的问题,以提供精准的回答.总的来说,它是一种自动化的能力,将知识或信息,通过自然语言交互的方式准确地提供给需要的用户.

如何让机器人具备像人类一样的触觉?

机器人真的只能是冷冰冰的么?科学家并不这么想,他们想让机器人能进化出"触觉".外媒近日刊文,对触觉学的发展现状,及其与机器人技术的融合前景进行了详细介绍. 以下为文章全文: 在工厂和仓库,机器人在力量和精度上通常都胜过人类.人工智能软件可以驾驶汽车,可以战胜国际象棋大师,还能在<危险边缘>智力问答节目中完胜人类选手.但机器仍然缺乏一些至关重要的能力,因此短期内依旧难以在很多功能上赶超人类--精密而完善的触觉便是其中之一. 例如,斯坦福医院头颈外科医生尼古拉斯·布雷文思(Ni

大数据时代机器人会抢了你的饭碗吗?

随着机器人越来越多地入侵人类工作场所,很多人担心机器人会抢了自己的饭碗.一些人每天忧心忡忡,而一些人表示这是杞人忧天.现在,就让权威数据告诉你,机器人到底会抢了你的饭碗吗?哪些职业面临的风险更高? 近日,美国调查公司麦肯锡(McKinsey)调查了美国800多种工作岗位的2000多种工作活动,分析每种活动所需的时间和技能,以及每种活动中包含的自动化成分,以此来分析哪些岗位最有可能面临失业的危险. 研究人员表示:相比于脑力劳动,体力劳动从业者面临的失业风险更大.而在体力劳动中,那些更依赖"可预测的

四大性能比拼三款热销品牌智能扫地机器人评测

巴西世界杯足球赛正如火如荼举行,智能扫地机器人的"世界杯"角力也正在上演.各个智能扫地机器人品牌实力有如各国足球队实力一般,各有优势.今天小编针对三个品牌的代表机型进行评测,看在清扫能力方面谁是智能扫地机器人"世界杯"王者.参评产品1:iRobot Roomba 780iRobot 做军工用品起家,在产品研发上实力比较雄厚,也有自己的产品研发技术,该款智能扫地机美国,及欧州市场占据优势.目前我们评测的是iRobot Roomba,在国内进口一线品牌中价格属于中上水平

百度极速智能搜索上线 超越“即搜即得”

中介交易 SEO诊断 淘宝客 云主机 技术大厅 作为全球最大的中文搜索引擎,"百度一下,你就知道",曾经为传统中文搜索方式打上"即搜即得"的深刻烙印.今日,百度一改数年传统,在用户体验上,直接实现一边输入字词一边即可实时反馈搜索结果,以一种超越"即搜即得"的搜索体验和交互创新,向"极速"与"智能预测"两大未来搜索引擎的方向迈进一大步. 全新升级的百度新搜索方式,具备更快.更智能,更加个性化三大特点.首先,在

发展型机器人:由人类婴儿启发的机器人. 导读

机器人学译丛 发展型机器人:由人类婴儿 启发的机器人Developmental Robotics:From Babies to Robots       译者序 Developmental Robotics:From Babies to Robots 2005年攻读博士学位伊始,我的导师Mark Lee教授给我定的研究题目是developmental robotics.那时我确实是一头雾水,面对这么大的题目不知如何开始.随着阅读与学习的深入,我逐渐理解了这项研究的内涵与意义,我的研究领域自此与发