近期ChatGPT在AI自然语言处理领域可谓是大显身手,以至于不少人起了歪心思开始使用AI工具 “代写” 文章。为了检测出这些AI生成的文章,2023年4月23日新科学家网站发表了一篇文章叫做 “AI检测工具对非英语母语人士书写文章的偏见”。
研究人员从中国教育论坛上获取了91篇中国人写的托福作文,同时利用AI 语言检测工具对比了88篇美国八年级学生的作文。研究人员总共使用了七个AI生成检测工具,结果大大出人意料。
中国学生写的托福文章,误判率从最低48%到最高76%,而美国八年级学生的作文,误判率从0%到12%。研究者随后把中国学生的文章做了润色后(提高复杂度),然后AI检测器的结果就几乎反了过来。
从这个结果我们可以看出,现有的AI检测器很容易被原作者的语言水平影响,而且其本身的测量标准,比如复杂度,也缺乏广泛的适用性和可靠性。
既然AI基于 “复杂度” 这个单一概念有很高的误判,那么如何不依赖单一概念、多角度做判断呢?BEEC团队参与的一个最新研究,正好为如何区分英语母语和非母语文章提供了很好的实证结论。
BEEC的CEO周明教授,加州北州大学的孙扬教授,和加州州立大学的田少楠教授在疫情期间开始了一个研究项目。他们研究的问题是,如何区分网络购物平台上由英语母语和非母语人士书写的产品介绍。
这个项目的灵感来自于硅谷一个咨询公司的疑问,母语和非母语人士写的产品或市场推广材料到底哪里不一样?如果能知道这两者的区别,那么就可以帮助非母语人士改进他们的推广资料。
经过研究团队和那家硅谷的咨询公司的共同商讨,和对数据的严格分析筛选,研究团队从美国亚马逊的网站上收集了大量的产品介绍。所有产品品类的挑选都要求市场中既有中国卖家也有美国卖家,这样才能得到非母语和母语写作的多样性。
研究团队招募了美国本土消费者,经过一年多的时间,对所有的产品介绍进行了分类,从母语水平到非母语水平,当然还有一些中间水平。这个分类以消费者读完产品介绍后的印象为基础,尽量贴近实际消费者决策的过程。
然后,研究团队将所有产品描述都使用标准的文字挖掘的大数据方法进行量化,每篇产品介绍都细分为106个语言学参数指标。经过分析发现,非母语人士写的产品介绍,和母语人士比起来,有很明显的区别。特别是分辨英语非母语人士产品介绍的指标,准确率达到了90%以上。
英语非母语人士写的产品介绍,经常包含了以下这些特点:
第一,这些产品介绍一般篇幅比较长,句子较长,而且句子长度变化更多;
第二,句式结构相对母语人士更加简单;
第三,同一个动词、名词、介词重复的频率更高。甚至同一个词根的衍生词 (比如price衍生出pricy和priced这两个词),使用得也比母语人士写的产品介绍里多;
第四,同一语义的信息或概念重复出现的频率更高。比如前一句说过了ChatGPT这个事情,后面又重复性讲述,就是语义或概念的重复;
第五,某些词语在文字中只出现一次的概率更高。比如enchanting这个词,在整个产品介绍里只出现一次;
第六,语言学量化指标比例。一个是causal particle对causal verb比例。比如because, so 和therefore,就是causal particle。动词如make, cause, allow, 和help等,就是causal verb。这个比例越大,那么就越有可能是非母语人士写的产品介绍。另一个指标是minimum editorial distance,指的是将一个词语通过改变字母顺序或增加其他字母而变成另一个词语所需的最少步骤。比如把price变成pricy,就只需要一步。
第七,动词不定式(infinitives)出现的密度,比如to do。不定式的密度越高,则更有可能是非母语人士写的产品介绍;
第八,词汇相对简单和具体,比如dog(狗)就相对canine(犬类)显得简单具体;
那英语母语人士写的产品介绍有什么特点呢?研究团队发现了三个特点:
第一,母语人士写的产品介绍,对英语文化的熟悉度更高;
第二,这些产品介绍相对使用更多母语人士口语中常用词汇;
第三,英语里面有各个年级所学习的词汇的分类,母语人士写的产品介绍中,使用高年级词汇更多;
相对文章开头引用的新科学家网站的报导,BEEC参与的这个研究则提供了另一个角度和更细化更具体的指标,去分析和定义母语和非母语商业英语写作的区别。BEEC也很高兴在AI领域能够抛砖引玉,之后会有更多的研究者会从不同的角度为AI的未来添砖加瓦,让AI更好地为我们服务。