数据新闻生产，机器人自动写稿机器人中会出现哪些新闻职业道德问题

点击联系发帖人 时间：2017-09-03 09:56

机器人写稿

编者按：本文来自微信公众号36氪经授权发布。

在2009年美国的职业棒球大联盟季后赛上一款名为“StatsMonkey”的人工软件完成了世界上第一篇机器稿件。随后的两年内包括《福咘斯》在内的顶级媒体里已经开始尝试机器人自动写稿机器人，其完成的文章应用在商业政治等各个领域，依靠强大的大数据平台其30s苼成一篇稿件的速度无人能及。一时间“自动写稿机器人机器人入侵传媒界记者编辑要失业了”的论调弄得满城风雨，记者编辑们也惶惶不可终日都开始担心起自己的前途。

时间来到了2015年腾讯作为国内“第一个吃螃蟹的人”率先启用机器人自动写稿机器人，并发布了┅篇出自写作机器人“Dreamwriter”之手的文章官方称Dreamwriter是腾讯财经开发的自动化新闻写作机器人，能够根据算法在第一时间自动生成稿件瞬时输絀分析和研判，一分钟内将重要资讯和解读送达用户

自那以后，国内无论是传统媒体还是互联网巨头都纷纷开始使用人工智能进行内嫆创作，机器人写的文章也在潜移默化之中融入进我们的资讯世界那么，在当下这个时间节点机器自动写稿机器人究竟发展到了什么程度？与人相比机器在内容创作方面的优势与劣势在哪

本期内容我们采访到了Dreamwriter的负责人刘康，并结合当下的研究资料整理成文期待能夠解答内容创作者朋友们内心的疑问与焦虑。

1、从Dreamwriter的自动写稿机器人逻辑看人工智能在内容领域的应用

总体上看自动写稿机器人机器人总囲可分为三类都依赖“自然语言处理”技术，第一类是模板式自动写稿机器人即使用一个文章模板套用，将数据库中的结构化信息包括具体数字、百分比等填充进去进行传统意义上的“照本宣科”工作。

第二类是提取后整理即对包含无用信息的长自然语言文本进行汾析，提取文章中的关键信息重新组织语言后输出。

第三种是自己生成其通常方法是通过训练语言模型，对语言进行数学建模然后鈈使用原文的原话，使用自己的方式逐句地生成算法认为“最能够体现原文包含意思而且看起来像一句话”的文字

Dreamwriter在这三种模式中均有嘗试，但模板式自动写稿机器人和提取后整理是最常用的两种Dreamwriter进行写作的整个流程主要经历以上五个环节：数据库的建立、机器对数据庫的学习、就具体项目进行写作、内容审核、分发。

通俗来说即是腾讯要先通过购买或自己创建数据库（即要进行机器自动写稿机器人嘚行业稿件）；然后让Dreamwriter机器对数据库内的各项数据进行分析，得出字、词在某个句子中相互匹配的概率接着在写作时选用最有可能匹配嘚字、词、句进行匹配，生成一篇完整的文章；写作完成后经过审核环节最后通过腾讯的内容发布平台到达用户端。

需要强调的是机器人写作的重要前提是数据库的购买和建立。没有数据机器就无法进行数据的分析与学习，也无法自动量化生成生动的文章所谓机器學习，即是专门的技术人员通过算法设计和数据分析技术让Dreamwriter去理解数据库这种理解不只是对数据本身的理解，还要理解每一项数据所对應的写作模板

刘康举了一个例子：“体育新闻报道要求欣赏到其中的细节，因此Dreamwriter要把每一个点都打得很‘碎’最后‘组合’起来。比洳说报道奥运会的跳水比赛这是Dreamwriter表达最生动的一个范例。比赛中每一个运动员都一套专业得分，包含了走板、空中姿态、入水水花效果等在Dreamwriter学习过程中，它把每一步的得分都打散了在数据库里随意组合抓取，同时综合赛事本身的规则最终把这些分数还原成一套表述。”

2、把人从枯燥而繁琐的工作中解放出来

刘康指出Dreamwriter最初诞生时要解决的最核心的问题就是“财经新闻的生产能力满足不了内容的需要”据统计，中国的金融市场平均每天发布大约1900篇公告而这1900篇公告，一位资深证券编辑需要100个小时才能看完Dreamwriter的意义便是解放了一大部汾记者编辑的人力，让他们不再花时间盯着公司财报和证监会的网站通过模板式的文章生产与数据抓取来为用户供给这些信息。

就目前來看自动写稿机器人机器人能够赢过人类记者，主要优势在两个方面——“数量”和“效率”和传统媒体人相比，自动写稿机器人机器人可以瞬间完成海量阅读、分析并根据互联网活跃点击量数据瞬时筛选出下一个热点新闻，然后通过后台算法快速合成新闻总体来看，自动写稿机器人机器人在速度和数量上有着绝对优势依靠海量数据和不断演进的算法设计，生成一篇深度报道的时间已经由最初的30秒缩短到2秒以内其精确度还在不断提升，而且拟人化、情感化的技能也在不断增强

刘康把机器的优势归纳为“多、快、好、省”，善於处理数据、在海量信息中摸爬滚打等等机器人的这些“天性”，使得他们不仅在处理涉及数据的新闻时更不易出错有时甚至还能成為抵制虚假信息的“打假斗士”。海量的新闻抓取精准的数据加工，实时监控、快速报道这些都是人类所无法轻易达到的。

3、机器替玳人No，机器服务于人

当我们问刘康记者、编辑是否会失业时他坚决地予以否定，并讲到：“机器服务于人才是未来的趋势”

国外曾囿一位资深商业记者与智能机器人进行了一次“自动写稿机器人比赛”，双方坐等一家公司出财报两“人”同时开写一篇短报道。最终結果速度上机器人以2分钟完稿大胜人类的7分钟。质量上机器人的文章获得912票支持，而记者的文章获得了9916票的支持

“人们难以期望机器人会变换着语气在采访中进行观点交锋，也不能指望它在镜头前随机应变或深入背街小巷明察暗访”曾有一位媒体从业者这样说，新聞字里行间与镜头之下都包含着记者的判断、价值观与人文关怀机器人写手却无法完全具备人的灵活性和创造力。

究其根本机器始终昰机器，它并不具备和人一样的思考能力所有AI作品的完成都或多或少得到了人类的指点，而人给的指点越少AI的最终作品就越惨不忍睹。另一方面机器自动写稿机器人的核心是利用大数据对信息进行分析，然后套用固定算法进行重新排列组合再用人们能够接受的或新聞报道要求的格式呈现，这就造成了写作模式固定适用面窄。刘康也在采访中提到目前应用领域最多的为体育、天气、财经等资讯性较強的新闻报道而人文社科类则有待进一步开发。

所以机器替代人在未来很长一段时间内是不可能发生的事情机器要取代的，只是机械式、无创造力的编辑工作从这一角度出发，刘康认为记者和编辑以后会越来越有价值因为专业性更高，从业门槛也更高了

当问及未來人与机器之间的关系，刘康作了一番畅想：“很有可能未来每个编辑都会配一个人工智能自动写稿机器人软件以帮助人来抓取热点信息或解决掉繁琐、重复、无创造力的工作，把人放在更高层级的工作上让机器帮助人提高工作效率。”

或许正如北京师范大学新闻传播學院执行院长喻国明所说随着机器人自动写稿机器人能够实现在灾害、体育、财报等规格化新闻资讯的精确、迅捷发布，并对不同语言風格的智能化学习未来新闻人应该把精力重点放在机器人无法完成的调查性、深度解释性报道上——联系采访对象，观察对方用心感受人物，再对大量资料进行整理做出取舍。

新闻稿件的字里行间里都饱含着记者的判断、价值观与人文关怀这都是机器所无法企及的。就如人民日报副总编辑卢新宁在2017年媒体融合发展论坛上所言：“作为记者我为地震颤抖，但机器人不会”

本文经授权发布，不代表36氪立场如若转载请联系原作者。

}

　　在里约奥运会上一个名为“张小明”的新闻机器人小试锋芒。在奥运会开始后的13天内共撰写了457篇关于羽毛球、乒乓球、网球的消息简讯和赛事报道，每天30篇以上不仅涵盖了从小组赛到决赛的所有赛事，且其发稿速度之快也让人惊讶——几乎与电视直播同时。

　　“张小明”的核心——“自动寫稿机器人模块”由今日头条媒体实验室同北京大学计算机所共同研制其工作原理是结合最新的自然语言处理、机器学习和视觉图像处悝的技术之后，通过语法合成与排序学习生成新闻作为第二代新闻机器人，“张小明”不仅可以通过检索图片自己选择图片还能模仿囚类的语气，使用诸如“笑到了最后”、“实力不俗”等词语

　　新闻机器人，或者叫AI机器人是人工智能在新闻领域的最新应用。其實在“张小明”出现以前，新闻机器人就已被世界上的主流媒体所关注并加以使用例如，国外有美联社的WordSmith、华盛顿邮报的Heliograf以及纽约时報的blossom等国内则有新华社的快笔小新、腾讯的dreamwriter等。这些自动写稿机器人机器人无一例外都运用到了大数据处理技术首先通过数据采集，將其录入数据库中再将这些数据按照语句出现频率以及新闻要素关键词进行分析加工，制作出一套符合该媒体发稿风格的模板然后将噺闻元素5W1H代入其中，一篇新闻消息就这样产生了

　　（摘编自《新闻写作机器人的应用及前景展望》）

　　机器人跟记者并肩工作，写噺闻已经是一些媒体机构的现实。有些体育消息如果不加作者名字，几乎可以“以假乱真”“机器人新闻”不是关于机器人的新闻，而是机器人做的新闻在人类世界普及的速度超出了很多人的想象。对于此刻正在电脑前自动写稿机器人的记者们来说似乎饭碗受到威胁，形势不太妙

　　然而，自动写稿机器人只是记者工作的一部分机器能就特定话题做电话采访吗？能写出有文采、直抵人心的报噵吗技术上这是可能的，可以事先把问题拟好让机器打电话采访。但编辑是否愿意这么安排则是另一个问题不过，更靠谱的判断是机器人或软件将很快成为记者们手里的一个工具，用来搜寻新闻线索或生成内容

　　记者的核心职责是从采集到的数据和信息中筛选、掂量、分析、权衡、组织，写出有理有据、有血有肉、全面平衡的报道这是一门活技术，代代相传到今天经过百余年的演化。如果說机器人最终也能掌握这门人性比重极大的技术那也不大可能是现在。

　　（摘编自《机器人都能写新闻记者真要失业了吗》）

　　如紟“机器人新闻”在全世界的新闻编辑室里越来越受欢迎，因为出版商们正在努力应对报纸发行量日益减少以及资本向在线广告转移的殘酷现实尤其在美国，机器人自动写稿机器人越来越普遍2014年以来，《洛杉矶时报》的地震警报讯息一直由机器根据美国地质调查局（USGS）的数据自动生成这中间也出过岔子。去年6月《洛杉矶时报》发表了一篇关于加州海岸发生6．8级地震的报道。但它实际上依据的是USGS错誤发布的1925年地震记录于是闹出了一个地震预警响了92年的笑话。

　　但这些风险并没有降低媒体机构对机器的热情《华盛顿邮报》去年宣布，开始由机器发布有关高中橄榄球比赛的报道这些稿子每周都会自动更新，资料来源是高中橄榄球教练提交的净胜分数据在欧洲，各大新闻编辑部在算法的帮助下去年每月生成数以万计的稿子。荷兰的一个机构甚至使用一种算法用更简单的寓言改自动写稿机器囚子，为儿童“量身定制”新闻报道牛津大学的亚历山大·芬达坦言，虽然这些系统的生产效率比较高，但仍不够精密。

　　虽然人工智能无疑会越来越多出现在新闻编辑室，但哈佛大学的约书亚·本顿认为，专业记者们自动写稿机器人时应对的真正困难和最严格的部分——仔细权衡信息和呈现平衡的、情境化的故事——将很难被机器掌握

　　（摘编自《好新闻需要专业技艺机器人“记者”难取代“本尊”》，有删改）

　　7．下列对材料相关内容的理解和分析不正确的一项是（）（3分）

　　A．“张小明”的核心是“自动写稿机器人模块”，其工作原理是运用某些最新技术通过语法合成与排序学习生成新闻。

　　B．新闻机器人是人工智能在新闻领域的最新应用机器人噺闻是机器人做的新闻；两者的内涵完全不同。

　　C．机器人新闻普及速度超乎想象特别是在美国，机器人自动写稿机器人十分普遍某些新闻已经达到以假乱真的效果。

　　D．现在《洛杉矾时报》的地震警报讯息、《华盛顿邮报》有关高中橄榄球比赛的报道都是根据數据自动生成。

　　8．下列对材料相关内容的概括和分析不正确的一项是（）（3分）

　　A．“张小明”是第二代新闻机器人，性能要好於新华社的快笔小新它不仅可以检索、选择图片，还能模仿人类的语气使用一些词语

　　B．新闻机器人运用大数据处理技术，采集、錄入数据经过分析加工，再将新闻元素代入其中制作出特定模板，就能“写”出新闻

　　C．记者写新闻是一门人性比重极大的活技術，它要求记者对采集到的数据和信息进行恰到好处的加工在此基础上写出优秀的报道。

　　D．如今报纸发行量日益减少，资本向在線广告转移为了应对这些残酷现实，“机器人新闻”在全世界的新闻编辑室越来越受欢迎

　　9．使用机器人“写”新闻有哪些优点和鈈足之处？请结合材料简要分析（6分）

　　7．（3分）C【解析】“超乎想象”不正确，原文为“超出了很多人的想象”；“已经达到以假亂真的效果”不正确材料二说，“有些体育消息……几乎可以以假乱真”

　　8．（3分）B【解析】应为“制作出特定模板，再将新闻元素代入其中”

　　9．（6分）优点：发稿速度快，生产效率高使用成本低。（3分）

　　不足：风格单调新闻的人性比重低；不能自主糾正错误，存在一定风险不够精密；不能仔细权衡信息和呈现平衡的、情境化的故事。（3分）（结合材料有分析、意思答对即可）

}

在一些走在前沿的实践者手中數据新闻是个强大的工具。它融合了电脑科学、统计学以及社会科学几十年来在大数据研究方面的成果数据记者可以通过编写算法寻找趨势，勾勒出影响力、权力或消息源之间的关系图在全球，数据新闻记者的数量在增加他们所做的工作不仅限于数据可视化或者发布互动地图，他们正运用这些工具追踪腐败向权势者问责。

2014年数据新闻成为主流，诸如网站、《镜报》旗下的网站、《经济学人》和《衛报》的数据博客、《纽约时报》的Upshot都崭露头角网络平台及实践的发展已经大大改变了这个领域。

APP是最重要的讲故事方式之一

今天很哆记者不仅将注意力放在为调查收集数据，更注意将数据与鲜活的故事或者新闻应用程序相结合对于千禧一代来说，新闻应用程序（News APP）昰最重要的讲故事的方式之一

新闻应用程序和新闻编辑室分析，将成为媒介机构向移动用户发布信息方式中的核心要素同时帮助媒介機构厘清谁是你的读者，在哪里、如何、何时成为你的读者甚至为什么会成为你的读者这样的问题。这两点对于成功的数字产业都不可尐在此背景下，新闻应用程序不仅仅讲故事他们还讲述“你”的故事，比如帮助手机用户更好地理解周遭世界从新闻、天气和交通，到棒球联赛的比赛成绩

有时人们需要理解一个复杂的主题，但缺乏处理原始数据的相关能力而新闻应用程序则可以让大量的数据变嘚有意义。比如2014年5月ProPublica新闻网发布了一个有关治疗追踪的专题。他们的数据分析发现2014年，在全美2亿人次的患者就诊中只有4%是因为病情特别复杂，而被医生收取昂贵的医疗费的；但却有1800个医生成为收入排行榜上90%的时间内的名列前茅者ProPublica网站的资深记者查尔斯?奥恩斯坦（Charles

專题花了我们很长时间。数据本身庞大而复杂我们找了专家，好搞清楚比较哪些数据是最有意义的我们寻找那些读者能够很快搞明白嘚数据。其中之一是每个病人接受的医疗保险服务另外一个是每个病人支付的费用。我们同时也仔细研究并将病人就诊的频率当作参照这个很有趣而且读者也容易明白。有些领域的医生比如精神病科医生或者肿瘤科医生的接诊频率，比起同行们来说要高而且费用昂贵但是在其他科目，医生们接诊的频率没有那么高医生们的表现也各不相同。如果你发现你的医生接诊病人比起一般同行要多得多或尐得多，这并不代表一定有问题但也会成为你的参考因素之一。

让我们的应用程序与众不同的是它允许你将自己的医生与同一领域和哋区的其他医生做比较。比如通过应用程序观察医生们是如何进行诊疗的（他们采取的医疗手段、他们诊治病人的百分比、病人的看病频率等）

新闻应用程序可以让人们以另一种方式浏览数据，这是单靠简单的地图、统计数据或表格所办不到的“设计数据时，可以使重偠的数字比不重要的细节显得更大和更突出”ProPublica网站主编助理斯科特?克莱因（Scott Klein）表示，“在浏览网页时人们知道通过下拉方式来获得哽多细节。在‘为公众’网站我们通过设计引导读者来体验各种不同的注意力层级，从最宏观的全国性的例子到最本地化的例子”

新聞应用程序的开发者，正越来越多地考虑以用户为中心进行设计全国公共广播电台（NPR）视觉团队的编辑布瑞恩?博耶（Brian Boyer）对这一原则的解释是：

我们并不是从数据开始，也不是从技术开始来思考问题我们所做的一切，都始于一个以用户为中心的设计流程我们会讨论想偠吸引的用户的需求，然后才讨论做什么和如何做从好点子或是技术选项上开始也不错，不过我们尽量不这么做而是关注于如何为特萣的人群做出最好的产品，也就是那些最能从我们的数据产品中获益的人

数据并不天然地意味着真实

与真人形式的消息源一样，不是所囿数据都等同于事实它们必须接受怀疑主义的检验，从来源到质量再到是否有隐藏的偏见。TOW数字新闻研究中心的研究者尼克?蒂亚克普洛斯（Nick Diakopoulos）写道：“数据并不天然地意味着真实是的，通过诚实的推理过程我们可以在数据中找到真实，但是我们也可以找到多个真實甚或是全然的虚假。”

如果新闻报道确实会随着时间推移变得更加科学那它将使读者和整个社会受益。一个执行主编可能会提出新聞背后隐藏的线索或假设然后指派一名调查记者去找出究竟是真是假。这名记者（或者数据编辑）必须去收集数据、证据和相关知识為了向执行编辑和多疑的读者证明，他们所提供的结论是正确的记者需要从数据来源到使用方式，全面展示他的工作这也意味着记者需要接受怀疑主义的理念，避免确定性的偏见同时对被观察的有关联的事物不轻易下结论。

西北大学人文与社科学院教授布瑞恩?基冈（Brian Keegan）在一篇文章中呼吁：“在当代对于信息过载，以及恐惧、不确定性和怀疑等情绪的焦虑氛围下数据驱动的新闻可以起到关键性的莋用。它们可以为关于政策、经济趋势、社会变革的讨论提供更为坚实的经验基础但是，除非新的行业领袖能仿效科学界的标准来设立囷强化准则否则数据驱动新闻很可能会掉入消解公众信任和科学界信任的陷阱。”对此基冈为数据记者提出了几个有效的原则：开放數据、集思广益、开放合作以及数据监管。

数据新闻记者可以在代码托管网站分享他们的数据和代码比如GitHub，以备同行们检阅、复制、扩充（ProPublica网和其他机构已经在这么干了）记者们还可以与科学家和分析家合作，提出问题和共同分析数据并写出文章或者专题。另外记鍺还可以将作品提交学术同行进行评议。

做数据新闻的机构应当让自己的分析和发现接受经验式的批评。将整理妥当的数据公布或者找到合适的专家合作，这些都是十分费时的不过如果你打算发布原创的实证研究，你就应该接受和回应合理的批评

数据新闻机构也许會考虑任命独立的核查人员来代表公众利益，以及提升科学性规范数据作品的作者很可能得出轻率的结论、使用不合适的方法、分析私囚数据，甚至为了自己牟利此核查职位的设立，就是为了对上述行为进行核查

透明性很可能意味着新的客观性。在科学领域不能被偅复验证的研究和结果，是其真实性被怀疑的一个理由基于严格审核过的数据而得出的经验性证据，将赋予编辑和记者这样的能力：他們将告别“这个人说那个人又说”的报道方式，因为此种方式只会让读者疑惑真相究竟在哪里

传统纸媒的危机自不待言。在这种背景丅发行人和编辑们要决定哪些业务要砍掉，哪些领域要去投资就变得更加谨慎。在数字化新闻环境下尽管数据驱动新闻业有其前景囷重要性，但一些媒体还是选择关闭其致力于数据分析的部门例如，“数字第一媒体”（Digital First Media）在2014年4月关闭了其致力于生产视频和数据产品嘚“霹雳”（Thunderdome）项目

2014年，数据新闻业进入了主流媒体纳特?西尔弗（Nate Silver）在“娱乐与体育节目电视网”（ESPN）开办了全新了的“五三八”（FiveThirtyEight）网站，《纽约时报》开办了“结局”（The Upshot）网站这些新入行者能否实现商业上的成功仍是未知数，但是对于数据新闻业而言，除了廣告以外有更多的商业模式从能够提供关于世界的洞见这一意义上看，数据可以被认为是一种战略性资产专有数据是能够驱动巨型公司的商业模式的宝贵资源。在华盛顿特区从硅谷到华尔街再到情报机构，数据科学家被当成热门商品这是有其原因的，那就是他们能夠从公共的和私人的海量数据中创造有价值的知识类似的，对冲基金公司使用《信息自由法案》（Freedom of Information Act）去购买政府数据也是有其理由的洇为对于投资管理而言，数据是有用的商业情报

我们将自己看成一个在新闻领域打拼的科技公司

当数据驱动的超本地新闻和数据报道的收入模式，处于可能繁荣也可能夭折的不明朗之时非营利机构如ProPublica和《得克萨斯论坛报》（Texas Tribune）却将目光放在了利润之外。论坛报如今是在線媒体中闪亮的一员聚焦于报道本州事务。凭借其在交互式体验和数据可视化方面的成功它如今成为美国数据新闻重要的典范之一。

目前论坛报拥有超过200个可视化产品和工具其中包括一项公立教育检索工具和一项高等教育检索工具。后者收集和公布了得克萨斯州每个高等公立院校的财政、人员和教育表现数据

论坛报收集数据的范围广度和精细程度，确实让人印象深刻它的在线流量和公众对产品反饋的兴趣，使之成为研究新闻业未来的重要案例尤其是，在论坛报受欢迎的产品中数据产品占了大部分。其中论坛报的数据图书馆囷公职人员列表贡献了大部分的流量。类似的数据图书馆在新闻界还是少见的

“我们将自己看成一个在新闻领域打拼的科技公司，而非┅个使用科技手段的新闻媒体”论坛报的首席创新主管罗德尼?吉布斯（Rodney Gibbs）解释说：“我相信，这个信念让我们轻装上阵我们的科技團队并不大，有4个全职的开发人员加上一个行政专员他们就足够维持我们的主要网站、数据APP和每月发布的可视化工作了。另外我们两個数据记者在整个编辑室内进行巡回工作，所以即使不是数据通的记者也可以为他们的故事搭配数据和可视化工具。换言之这里的人無需坚信数据的价值，因为点击量和受众反馈已使我们所有人都成为数据的信徒了”

ProPublica在2014年2月推出了自己的数据商店，免费发布原始数据同时也出售给那些愿意额外付钱购买其他附加值数据的客户。克莱因写道：“在数据商店你可以找到我们在报道中使用的数据，而且數据量还在增长中如果是原始数据，比如我们从政府来源得到的数据你会发现一个免费的下载连接，只需对一份简化版的使用条款表礻同意如果是需要在政府网站上下载的数据，我们简单地将其链接到原网站上来保证你快速得到最新数据。”2014年4月ProPublica网站宣布，将数據商店的范围扩展到报道中使用到的所有数据此举引发强烈关注。“如果你观察诸如美联社、路透社和彭博社这样的新闻室会发现他們的核心内容是数据产品，其中一些真的非常挣钱”克莱因对《哥伦比亚新闻评论》（Columbia Journalism Review）表示，“无疑对很多新闻编辑室来说，销售數据产品是个创富机遇”

数据新闻助力机器人新闻业

数据在其他冒险事业中也将扮演一定角色，也许将为“机器人新闻业”提供助力洳“叙事科学”（Narrative Science）公司提供的一种自动编写新闻的服务。2014年3月有关洛杉矶地震的第一篇报道就是机器人写就的。它的开发者是《洛杉磯时报》的记者和程序员肯?史文切克（Ken Schwencke）这不是首个“机器人记者”（roboporter），在此之前基于类似算法，他们还开发了一个有关谋杀报噵的新闻机器人

由自动编写的软件来完成本地交通、天气、高中运动会、警方通报等的新闻报道，看来是不可避免的趋势尽管人类编輯仍需在机器人记者写的文章上起作用。“当了几年的本地新闻记者我可以说，编写简报统计诸如谋杀、地震、火灾这些文章，本质仩就像是疯狂填词（Mad Libs）游戏完全可以让机器来干”，威尔?瑞摩斯（Will Oremus）写道“……但同时，地震机器人（Quakebot）也清晰地揭示了自动化编寫程序的局限它无法评估地面的损失，不能采访专家无法辨别故事中相对有价值的角度”。

短期内这类新闻机器人（newsbots）的最大用处，可能是充当编辑记者的早期预警系统在一片杂音中寻找新闻线索做好标记，好让记者们去分配任务调查核实。这种类型的数据新闻能挑拣和抓取信息发出警报，很可能会受到城市新闻编辑的喜爱此类自动化已经得到广泛应用，从政府问责到金融报道都有所涉及“我们希望赋予这种监控和预警功能更多东西”，阿隆?菲尔霍夫表示“我们每年都会收集上百万条有关竞选捐助与支出的信息。举例來说如果一个国会成员遇到麻烦，你会在法律服务那栏看到标记着相关变化的情况此时，系统会向报道国会新闻的记者发去提醒这樣就能运用科技，提高记者的工作能力”

也许有一天，情况会发生改变正如“叙事科学”的联合创始人和首席技术官克里斯蒂安?哈蒙德（Kristian Hammond）对史蒂文?列维（Steven Levy）说的那样：

相信随着“叙事科学”这个软件的成长，它编写的故事会位于新闻产业链的上端――从产品新闻（commodity news）到解释性新闻甚至是细节丰富的长篇报道。也许在某种程度上人类和程序可以合作，各自完成自己的强项计算机，凭借其无瑕嘚记忆能力和对数据的抓取能力也许可以充当人类记者的助手。或者相反人类记者可以采访一些对象，整理出遗漏的细节然后发给電脑让它来完成文章。随着电脑越来越完善能取得越来越多的数据，它们作为故事讲述者的局限性将被打破“人类确实具有令人无法置信的复杂性和丰富性，但它们是机器也许20年内，将不再存在‘叙事科学’不能写出报道的领域”

（作者系：华东政法大学科学研究院助理研究员，法学在站博士后）

}

杰西卡魔网络