即便如此,AI也可以为写作者提供种超越简单语料统计、具备定语义感知能力文本分析工具。其实,早在语言学家们利用词频统计来判定《红楼梦》前八十回文本与后四十回文本异同年代,计算机对于文学创作、文学评论镜鉴价值就已经模糊地显现出来。今天AI工具拥有比单纯词频统计更强能力。例如,自然语言处理中常用语词表征学习技术Word2vec就是这个探索方向上种基本工具。有关Word2vec个通俗解读是,当机器利用此工具计算出文本中每个语词对应神秘数值[7]后,可以巧妙地将神秘数值与语义联系起来,甚至可以用直观计算式来进行语义推导(们用加方括号词来表示该词对应神秘数值):
[皇帝]–[男人]+[女人]≈[皇后]
[北京]-[中国]+[澳大利亚]≈[悉尼]
上面两个非常直白计算式对AI研发者而言早已司空见惯,但每次展示给没有经过编程和算法训练人,还是会收获莫名惊诧。因为这样明显语义关系完全由AI算法自动得出,这很难不让人怀疑AI已经找到解读人类大脑密码。遗憾是,科学逻辑并不支持这样假想。今天Word2vec只是种应用于文本数学工具,AI对语义解读,还只停留在肤浅统计建模层面,远谈不上理解人类语言。
Word2vec实用价值在于,它是主题、风格、情感等更高级建模或分析基础。曾抽取楸帆作品中代表性较强词汇,计算得到每个词对应Word2vec向量数值,再通过数学变换将百多维空间中向量转换成二维或三维人类可见图像[8]——这是标准、科学意义上“降维打击”。例如,后图(见下页)是从楸帆收录在这本书中六篇小说文本中,抽样提取代表性词汇生成空间分布示例(不同小说中语词在图中对应于不同形状标记)。
在电脑上,类似分布图可以针对每个空间局部或每个聚合主题,进行放大和细化。词汇在不同空间层级、区域聚合关系,可以直观地反映每篇小说、每个章节甚至每个段落写作特点。类似工具还可以很方便地比较不同作家文本差异。例如,们完全可以将楸帆《人生算法》和保罗·巴奇加卢皮《卡路里人》进行类似主题分析和词汇比较。再例如,即便们知道楸帆《美丽新世界孤儿》是向赫胥黎《美丽新世界》致敬作品,但精密文本分析也
请关闭浏览器阅读模式后查看本章节,否则可能部分章节内容会丢失。