科技日报记者 华 凌
近几年,机械写作不再是空言无补的手艺,已然渗入到了我们的糊口当中。本日头条、腾讯、百度、360等公司,和新华社、南边都会报、第一财经等传统媒体单元均展开了机械写作手艺的研究与利用。
不久前,在北京年夜学科技功效发布会暨北京市科技功效转化兼顾调和与办事平台系列项目路演中,北京年夜学计较机科学手艺研究所研究员万小军的AI写作机械人颇受存眷。
据先容,这项功效已利用于多家媒体单元,研发单元与各媒体单元合作推出了小明、小南、小柯等多款写作机械人,各类机械人已主动撰写新闻稿件十万多篇。
除新闻写作,还能利用于这些范畴
机械写作,又称天然说话天生,是天然说话处置范畴的主要研究标的目的和研究热门之一, 也是人工智能走向成熟的主要标记之一。
今朝,机械写作在传媒、出书、文娱、告白等多个行业均具有广漠利用场景。欧美等地较早成立专注于机械写作手艺利用的多家公司,例如ARRIA、AI、NarrativeScience等基于行业数据,经由过程机械写作天生行业陈述或新闻报导,从而节流年夜量人力。同时,很多国外着名媒体单元纷纭采取机械写作手艺进行新闻稿件创作,以节俭人力本钱,进步效力。
“与人类作者比拟,机械写作具有用率高、时效性好、笼盖性强、无成见等上风。本日头条的线上测试表白,机械人撰写新闻稿件的浏览率与人工稿件的浏览率根基不异,这申明机械稿件的质量不错,可以或许被泛博用户所接管。”万小军告知记者。
万小军说,我们但愿计较机同时具有读与写的能力,除把握浏览和理解说话文字的本事以外,还可以或许把握文字创作的本事,从而像人类一样写出高质量的文字作品,例如新闻资讯、陈述、诗歌、小说、作文等。
但是,计较机不克不及平空写作,必需按照所输进的数据与素材进行创作。据先容,按照输进的分歧类型的信息,计较机一般采取分歧的写作体例进行创作。例如,计较机按照输进的布局化数据(报表、RDF数据等)进行文字创作,从而可以或许天生稿件。这是今朝机械写作利用的首要体例,合用于气候预告、医疗陈述、赛事简讯、财经报导等文本的天生。
万小军先容说,近几年机械写作除用于撰写新闻、陈述等适用型文本以外,还被用于创作古诗、现代诗、散文等文学作品,例如微软小冰、清华九歌等系统别离可以或许创作现代诗和古诗,在文字表示情势上的整体结果还不错,但在乎境上有所欠缺。
深度进修天生模子,但还难保精确性和可读性
近几年深度进修成长敏捷,机械写作手艺也遭到其深入影响。
据万小军先容,基于深度进修手艺进行文本天生,不依靠于模板或法则。但是,如许的写作体例固然在研究上获得必然进展,但今朝还不克不及包管所天生稿件的精确性与可读性,难以知足良多利用场景下对稿件的质量要求。另外,深度进修天生的模子练习需要年夜量的平行语料,而在良多范畴内较难获得到如许的年夜范围语料。
计较机按照已有的文字素材(例如已颁发的新闻)进行二次文字创作时,可以或许基于已有稿件创作出纷歧样的稿件,首要依靠于两类天然说话处置手艺:主动文摘与文本复述。此中主动文摘用于对单篇文本或多篇文本进行内容提炼与综合,构成摘要或综述。
万小军指出,多文档主动文摘比单文档主动文摘更具有挑战性,缘由在于分歧文档内容的冗余性、单方面性与弱联贯性。是以,对多篇新闻报导进行长篇综述天生极为坚苦,其研究团队在这方面进行了测验考试,提出基于段落排序与融会的方式为多篇新闻报导进行综述天生,获得必然结果。
文本复述则用于对现有文字进行改写,在主题与意思根基不变的条件下发生另外一种文字表述,从而避免原文照抄,也可实现文本气概化的目标。文本复述可以看做是一种单说话机械翻译题目,是以在平行语料充沛的条件下,各类统计机械翻译方式(包罗神经收集机械翻译)都可利用于此题目。但实际中却难以取得年夜范围的此类平行语料,是以针对文本复述的研究需要另辟门路,最新的研究首要集中在若何有用操纵少许的平行语料和年夜范围的非平行语料进行复述模子的进修。
加载更多>>