透过 AI 自然语言处理技术,加拿大团队正试着解开伏尼契手稿内容

你听过伏尼契手稿(Voynich manu)吗?它是约在 15 世纪出版的一本神秘书籍,由于书中语言和字母无人能辨识,自 19 世纪被发现以来一直都困扰着历史学家和密码学家,而加拿大团队最近则运用人工智能展开了新一轮的破译尝试,并从中获得些微的收获。

Phys.org 报导,这个团队是由加拿大阿尔伯塔大学(University of Alberta)电脑科学教授 Greg Kondrak 和研究生 Bradley Hauer 所组成。身为狂热的语言爱好者,Kondrak 的主要工作内容便是自然语言处理(NLP),试图帮助电脑理解人类的语言。

Kondrak 解释,自然语言处理不仅是为了让人们和电脑沟通的能够更加简易、方便,也是为了那些以书面形式存在的许多资讯,“我们使用人类语言与其他人交流,但电脑并不理解这种语言,因为它是专为人打造的,我们甚至没有意识到里面有着多少模糊的含意。”

伏尼契手稿共有 240 页,全书都是用精美的牛皮纸所制成,除了无人能辨识的字母、语言,手稿中也有着许多素描插图,自 19 世纪被发现以来,许多顶尖解码专家都曾积极研究,但最终仍无人能解析出内容,一些人甚至因此认为手稿只是恶作剧。

但 Kondrak 和 Hauer 显然并不这么想。为了帮助电脑理解人类的语言,他们正在研究该如何运用 AI 来协助解析人类语言中常出现的歧义内容(ambiguities),而他们的目标正好就是伏尼契手稿。

▲ 手稿中除了文字还有许多草药、天文及生物的插图,部分人甚至认为内容与中世纪炼金术相关。(Source:See page for author [Public domain], via Wikimedia Commons)

在进行内容解析之前,Kondrak 和 Hauer 必须先确定手稿中使用的语言种类,为此他们运用世界人权宣言中 400 种不同语言的样本进行了辨识。起初他们假设手稿是用阿拉伯文写成的,但是实际运行算法之后,却发现最有可能的反而是希伯来语(Hebrew)。

在解析出语言类别后,团队的目标自然转为朝向破译内容的方向进行,但这应该如何去做到呢?Kondrak 和 Hauer 先是假设手稿内容是以“alphagrams”方式撰写──以一个词语定义另一个,就像人类语言中那些含糊的内容,接着他们便运用算法来试图破译手稿。

在深入研究中团队发现,伏尼契手稿中有约 80% 以上的单字都能在希伯来语字典中找到,但他们并不确定当这些字连结在一起时,句子是否具有意义。在向希伯来学者求助破译内容的过程失败后,他们转而向 Google 翻译寻求协助。

尽管不是全部内容,但 Google 翻译还是提供了一个首次能见到在语法上通顺、且具有意义的句子:“她向牧师,房子里的人,我和人们提出了建议。”

Kondrak 认为,虽然手稿以这样的句子开始有些奇怪,但句子内容确实具有意义。在没有古希伯来历史学家的情况下,伏尼契手稿的全部内容仍旧是个谜团,但至少这个句子能被看作是一个开始,团队期待未来能将开发的算法应用到其他类似的古代手稿中。

  • Using AI to uncover the mystery of Voynich manu

(首图来源:See page for author [Public domain], via Wikimedia Commons)

猜你喜欢