“文字警察”如何揭露匿名作者

由:约翰·多诺万

内阁会议
美国总统唐纳德·特朗普在与国务卿迈克·蓬佩奥(左)和国防部长吉姆·马蒂斯(右)的内阁会议上,据说非常想知道《纽约时报》匿名专栏文章的身份。赢得麦克纳米/盖蒂图片社

当你想到法医学的时候,你可能会想到一个浅坟墓里的骨头或者指纹在犯罪现场。这是可以理解的。我们可以为此感谢像《犯罪现场调查》这样的电视剧。

但是法医学——“涉及或处理法律问题的科学知识的应用”(谢谢梅里亚姆-韦伯斯特——远不止是股骨和指纹。例如,有法医心理学家和法医工程师。的美国法医学科学院包括法医病理学家、处理伤者或死者的人员以及法医会计师。科学和科学知识可以应用于法律的任何领域——无论是实际解决犯罪,还是仅仅提供信息以用于诸如未决合同之类的日常事务——根据定义,都是法医学领域。

即使是语言学(研究语言及其使用和结构)这样听起来令人昏昏欲睡的领域的专家,也可以被视为法医学家。

“坦白说,很多工作都是书呆子式的,”法医语言学家、20年的资深律师詹姆斯·R·菲茨杰拉德(James R.Fitzgerald)说联邦调查局他证明了并非所有的语言学研究都是令人昏昏欲睡的,也不是书呆子们的研究成果。1996年,他帮助揭开了未爆炸者特德·卡钦斯基(Ted Kaczynski)的案件。“你坐着数数多个椭圆点上的点数。。。这帮我解决了一个案子。你在互联网上和各种语料库上做研究,关于某些标点符号的功能,或某些单词的交替拼写。

“很多人可能是业余语言学家。但这需要一个人研究这个领域,了解这个领域,对语言使用有真正的鉴赏力,我认为这才是最好的法医语言学家。这不是兼职。它必须被视为一项全职、严肃的职业。”

也许是因为天生的书呆子气,法医语言学家们可能永远不会有自己的电视节目。但这些科学家——他们首先是科学家——可以以他们自己的方式帮助解决谜团和犯罪。

广告

法医语言学家做什么

2018年9月初,《纽约时报》刊登了一篇匿名评论文章该报说,这是唐纳德·特朗普总统政府的一位高级官员撰写的。这篇文章描述了一个混乱的白宫和一个失控的总统。立刻,全国各地的人们——特别是白宫内部的人们——开始怀疑:谁写的?

这个问题完全属于这位法医语言学家的专业领域,菲茨杰拉德称之为“作者归属分析”(authorial attribution analysis):弄清楚是谁写的东西,不管是一篇尖刻的评论、一封勒索信、一份撼动社会的宣言、一封威胁性的电子邮件,还是Yelp上一篇明显片面、甚至可能是不公平的披萨评论。

将特定的名称放到特定的单词分组并不总是容易或可能的,特别是当您只有一个写作示例时。仍然……

霍夫斯特拉大学法证语言学研究生项目主任罗伯特·伦纳德(Robert Leonard)说:“你可以从一份文件中学到很多东西,这就是所谓的语言人口统计分析。”司法语言学,威胁评估和战略分析研究所. “你可以学到很多关于人的东西,而不需要将它与任何东西进行比较,因为实际上你是在将它与你和所有其他语言学家从一开始就研究过的所有其他文件进行比较。”

你能发现什么?

“我们可以看到一个人是否受过良好的教育,也许在社会科学方面受过训练,他们的年龄,也许,从他们使用的措辞,以及很多很多其他东西,”伦纳德说。“他们有什么工作经验,住在哪里……”

伦纳德说,更难确定的是一个人的性别。改变性别角色与此有关。

从一份文件中分析一位作者可以立即帮助缩小可疑作者的范围(例如,一位来自中西部、受过良好教育、以英语为第一语言的中年人)。一位训练有素的语言学家可以通过处理几篇文章,然后将相关文档与其他已知作者的文档进行比较,从而进一步揭开未知作者的面纱。

广告

司法语言学是如何工作的

人们的语言,无论是口头的还是书面的,在很多方面都不同,原因很多,包括(但不限于)他们的教育、环境、年龄、情绪和目标受众。

根据Carole Chaski的说法,她是语言证据研究所现任司法语言学咨询公司首席执行官别名技术-分为几类。她在报纸上写的一篇论文法律与政策杂志:

在语言学理论中,为了分析的目的,语言被分为不同的层次。这些层次是声音、单词和单词组合。分别从语音学和音系学的角度对这些层次进行分析;形态学与词汇;语法;语义学语用学;和韵律。

这些类别包括标点符号和拼写也然后,法医语言学家在研究写作时,科学地审视一切,从整体到某个句子的结构,再到句号、问号或撇号的使用。他们看文章(“a”和“the”)。他们寻找“标记性”,这是一个语言学术语,指的是某个单词或短语与规范之间的差异。

“当我真正坐下来阅读这些文件时,我寻找的是词汇特征的指标;单独使用的单词是什么,它们是不同寻常的,它们是与众不同的,它们是罕见的吗?他们是独一无二的吗?”菲茨杰拉德说,他在一个三本系列书中描述了自己的生活和职业生涯。《心灵中心之旅“作者的一些文体特征是什么?”他或她如何使用标点符号,他们如何格式化他们的交流——这些也很重要。他们是用分号,还是用em破折号,还是en破折号……

“当然,我寻找错误,它们是被迫的错误,它们是试图掩盖作者的真实身份的错误,还是它们看起来是自然的错误?”就像我一直说的,对一个匿名作者来说,降低写作难度要比提高写作水平容易得多。”

在试图识别匿名文章的作者时,误导是一种常见的策略。在《纽约时报》的专栏文章中,“lodestar”一词被几个纸上谈兵的法医语言学家抓住了。这是副总统迈克·彭斯经常使用的一个词。

然而,普遍的共识是,把这个词放在评论文章中是为了让语言学家们无法找到真正的作者。

《三原色布谷鸟的呼唤》
作者乔•克莱因(Joe Klein)和J.K.罗琳(J.K. Rowling)在写《原色》(Primary Colors)和《布谷鸟的呼唤》(The Cuckoo’s Calling)时,试图隐藏自己的真实身份,但文字侦探发现了他们。
HowStuffWorks

广告

成为单词侦探

匿名有时有用,但法医语言学家是一群讨厌的人。瓦萨学院的一位英语教授,做了一些语言学调查,正确地揭露了《新闻周刊》的专栏作家乔·克莱因是先前匿名的作者关于比尔·克林顿第一次竞选总统的小说《哈利·波特》作家J.K.罗琳被曝光是侦探小说的作者笔名罗伯特·加尔布雷斯。

确认卡钦斯基是匿名者宣言寄给新闻媒体的信件帮助他被定罪。这仍然是菲茨杰拉德最著名的案例。他和伦纳德也参与了JonBenét Ramsey的案子,在2006年帮助排除了一个错误承认在1996年杀害了年轻的科罗拉多选美选手的人。

不过,大多数法医语言学都没有那么高调。这是一项艰苦的工作,在聚光灯下,在电脑前完成。

伦纳德说:“我想所有的法医科学都遭受了所谓的‘CSI综合症’,在那里,一切都在一个小时内被整齐地绑在一个蝴蝶结上。”顺便说一下,伦纳德之前的职业生涯是作为一个摇滚乐队的原始成员沙娜娜并在伍德斯托克1969年,就在吉米·亨德里克斯之前。“当然,我在学生身上寻找的是,他们非常聪明,能够对语言数据进行极其细微的分析。不仅通过语言和方言了解语言是如何工作的,以及不同社会群体中人们用不同语言的相互作用,……但也要能够专注于最微小的数据点,并理解它发生的背景。”

广告

广告

加载……