科技日报记者 华 凌
“本年美国国度科技理事会发布的国度人工智能八年夜计谋中,有三项与天然说话处置有关。”近日,北京智源人工智能研究院首席科学家孙茂松暗示,“天然说话处置是全球人工智能计谋之关头。”但是,当前与天然说话处置的相干手艺远未成熟,很多题目亟待冲破。那末,今朝有哪些解决路子?
“学术范畴叫天然说话,实在指的就是人类说话。天然说话处置可以说是从人工智能这个词还没有呈现前,就是一个主要研究对象。”孙茂松暗示。
“说话,是人自力于动物的主要特点之一。可是年夜家不要把本身看得太高超,更不要以为人的说话就是模板,动物的说话也很壮大,此中不乏跨越我们的。” 孙茂松指出,好比鲸鱼的神经细胞有370亿个,人有200多亿,自己它的神经系统就比我们发财,说话也极为丰硕。而鱼在海洋光线欠好的环境下,可以或许做很强的交换,到此刻人类也对其说话的理解十分有限。虽然动物的说话和人的说话有很年夜分歧,但共性便是说话是两个个别之间交换的桥梁,桥梁感化就是研究的关头。
上世纪60年月,机械翻译系统已呈现。相干部分用《圣经》中的句子进行了测试,句子直译的意思是“精力是愿意的,可是肉体是衰弱的”,但用那时的机械翻译成俄文,再用俄文系统翻译成英文时,就酿成“伏特加是好的,但肉却腐臭,酒喝不成了”。现在把这个英语句子用谷歌翻译系统翻译成中文,根基上可以连结语义连结无缺,这就是明显的前进。
但此刻年夜数据驱动下的天然说话处置碰到的瓶颈,是一名闻名机械翻译专家提出机械翻译中“pen”的题目。即“pen”有两个意思:钢笔和围栏,而不管是谷歌仍是微软的机械翻译,都还不克不及很好地按照分歧语境将其译成适合的意思。“若是见过这句话的环境机械可能会翻译精确,而没见过就需要常识的堆集。年夜数据驱动下的天然说话处置有很年夜局限性,即应用常识处置题目的能力几近没有。”孙茂松指出。
近年,天然说话处置在全球规模遭到学术界的高度正视,美国国防高级研究打算局(DARPA)对基于常识的说话智能投进相当年夜,触及到数据常识与行动、低资本说话处置、常识指点模式推理、主动常识获得等。
据先容,今朝我国基于年夜数据驱动的深度进修已获得明显前进,这些年来良多主要进展都是基于这个层面。有专家指出,此后天然说话处置需要经由过程常识驱动实现冲破。孙茂松以为,“年夜数据与富常识双轮驱动”或成为解决题目的关头,即在年夜数据驱动的根本上插手富常识驱动,二者连系,缺一不成。他夸大,这个常识是系统性的,而不是用破裂的常识。
为此,北京智源人工智能研究院“天然说话处置”课题团队,将致力于解决多类型常识资本构建、天然说话深度理解、可控天然说话天生、融会常识的机械翻译、智能说话进修、对话系统等题目。
加载更多>>