金凤
12月2日,记者从南京农业年夜学得悉,新时期人平易近日报分词语料(以下简称NEPD)发布,这是由南京农业年夜学黄水清传授团队推出的最新版现代汉语通用语料库,是对北京年夜学1998年人平易近日报语料库的弥补。黄水清传授暗示,NEPD的相干语料将对学界发布,供学术研究用,而且后续还将不竭弥补最新语料,以增进语料资本的开放和同享。
南京农业年夜学黄水清传授,受访者供图
据领会,语料库是由人工或机械标注好的真实说话材料构成的数据集,是展开与天然说话有关研究的有用东西和手段。黄水清给记者打了个比方,语料库比如是机械进修的“教材”。教材的黑白影响讲授程度,语料库的质量影响机械进修算法的运行结果。高质量的语料库相当于优良“统编教材”。
作为现代汉语通用语料,北京年夜学计较说话研究所的1998年人平易近日报语料不管在学界和业界都有庞大的影响力。可是跟着时候的推移,该语料库在辞汇的时效性、完整性和笼盖度上均需要进行更新和弥补。
黄水清告知记者,最新发布的“新时期人平易近日报语料库”收录的是2012年今后即中国特点社会主义进进新时期今后《人平易近日报》刊发的文章。
据领会,NEPD从原始语料获得及预处置起头,在辞汇的切分和标注进程中,遵守国度尺度《信息处置用现代汉语分词规范》(GB/T13715-92),每份原始语料均由三组职员分阶段配合完成。为了进一步晋升标注成果的精准性,在人工标注的根本上,团队还设计了专门法式对所有的标点符号进行机械校订。
当前,人工智能方兴日盛,机械进修被普遍利用于天然说话的计较机处置,而语料库是包管机械进修算法正常运行的先决前提,计较机进修了语料库中的常识,才能对未知题目进行阐发、决议计划。
加载更多>>