大家好,我是杜静一,从事留学行业的工作已经有十二年。今天想和大家分享关于语言学作为美本申请学术兴趣的一些内容。语言学专业在美本申请中算是相对小众的专业,今天想稍微深入地讲讲这门学科主要在做什么,另外也通过我实际帮助美本申请人策划过的活动为大家提供一些语言学相关的学术活动思路。
我本科毕业于清华大学的基础人文学科专业(实验班),研究生继续在清华攻读语言学专业,博士在澳大利亚获得了语言学博士学位。语言学这门学科是个相对比较新的学科,中国国内直到2019年才有了第一批能够授予语言学本科学位的大学。这与国内传统上的专业划分有关。
在美国,语言学系和文学系是分开的,而在国内我们一般是按照语种来划分,叫中国语言文学系,英语语言文学系这样,缺少独立的一个囊括各种语言的系别。
我以哈佛大学的语言学系和英语文学系来对比,两个专业阐述自己的系是做什么的,可以看到显著的不同。
哈佛大学的语言学本科专业对自己的描述是:强调语言学理论、历史语言学及语言与认知之间的关系,并跨越人文科学、社会科学、认知科学、物理科学和生物科学等。而英语文学方面则强调的是叙事理解和叙事能力。
在这里我摘录加州大学洛杉矶分校语言学系对语言学研究的定义,从宏观上帮助大家理解语言学这个学科:
在这里要特别指出一点,语言学这个专业和外语学习完全是两回事,甚至可以说没什么关系。语言学更关注的是如下问题:
第一, 人类语言是怎样产生的,这既包括原始人类怎样发展出语言,也包括每个新生婴儿是如何获得语言能力的。
第二, 人类的大脑如何理解语言,在使用语言交流的过程中人与人之间为什么能够相互理解,比如为什么您能看懂这个讲座在试图说明什么。
第三, 人类语言与其他动物交流系统的区别是什么,比如鹦鹉也能模仿人类说话,这是语言吗?
第四, 当今社会是计算机的时代,计算机能做很多事,包括生成和理解自然语言,我们称之为自然语言处理,这也是当代语言学的一个重要分支领域。
前述这四个方面都是语言学最基础的需要回答的问题,那么语言学这个学科的研究方法是怎样的呢?与心理学、经济学等社会科学类似,语言虽然与人类社会生活息息相关,我们研究它的方法却更偏向定量研究。语言学作为一门社会科学,它需要研究者收集数据,验证假说,设计模型,构建理论。
在过去的几十年中语言学这门学科得到了飞速的发展,过往的语言学家基本上已经穷尽了文本方面能做的定量研究,比如我们找出一本字典,然后研究这本字典里所有的字词的词性归属,这种研究方式在计算机已经能够高速海量计算的今天已经没多少意义。
伴随神经科学和计算机科学的高速发展,今天的语言学研究更强调实验手段,关注语言的生成、感知和理解过程。大家也可以从我引用的俄亥俄州立大学语言学系对该科系语言学研究的描述中看到这一趋势。
那么从高中生升学的角度,假如以语言学为学术兴趣,我们具体能做些什么呢?
我在下图中列出了语言学专业主要的分支和交叉领域,大家可以结合自己已经在做的一些课外活动和已有的学术兴趣做些延伸。
我先从历史比较语言学说起,这是现代语言学起源的一个重要分支。我们刚才在哈佛的语言学系说明中还见到,哈佛说自己的语言学系非常注重历史语言学。1786年英国学者威廉·琼斯在对梵语做了深入的研究之后指出,梵语同拉丁语和希腊语之间存在着非常有系统的对应关系。
例如就词首辅音而言,“三”在梵语、希腊语和拉丁语中都是t,“父亲”都是 p。这种系统的对应现象非常普遍,绝不可能归结为偶然因素。琼斯同时认为,要解释这种现象,只有认为它们共同源自现在也许已经消亡了的某种语言。我们从下图中可以看到p到f的变化。
这个论断和后续欧洲的历史比较语言学研究推进了原始印欧语的构拟——历史比较语言学关注语言学最核心的一个问题,人类语言的起源,以及后来的现代语言是如何分化和演变的。
中国同学做欧洲语言方面的历史比较语言学有先天的劣势,我们掌握当代印欧语的数量往往不够多,大部分同学也没有那么多精力再去学习拉丁语希腊语等等。
但如果有同学是对这方面感兴趣并且了解过一些欧洲语言的基础知识,那么进行小型的历史比较语言学研究远比研读欧洲经典文学作品对语言知识的要求低,也不容易与别人的活动同质化。
近来中国国内历史比较语言学也取得了很多进步,几年前上海复旦大学金力院士团队历时两年多,运用遗传学的数学分析方法,通过对109种汉藏语系语言的近千个词汇词根-语义组合进行谱系建模分析,构拟了汉藏语系诸语言间的亲缘关系。
中国语言学领域首次在Nature上发表了科研成果。国内的同学如果感兴趣少数民族语言也可以做些相关的语言学田野调查,这个方向也是国外招生官非常青睐的。MIT等许多美国大学的语言学系非常欢迎感兴趣少数民族及方言地区语言语料整理分析的同学,这也是我之前在MIT Ted Lab做过科研项目的学生给我的反馈。
最近AI翻唱孙燕姿的事件上了热搜,这涉及到语言学一个很重要的领域,语音学。这个方向感兴趣如下一些问题:在人类可以发出的所有声音中,哪些声音实际存在于世界语言中?是什么特别定义了不同的“口音”?我们可以通过“声纹”识别说话者吗?以及适用于计算机语音合成的声音有哪些特性?
我们今天的日常生活中已经在应用语音合成的研究成果,比如导航的语音包。我们有易烊千玺和郭德纲的语音包,但并没有让他们录制每一句话。
导航语音包一般都是用语音合成技术合成的。原理是让人把汉语中的21个声母、37个韵母、5个声调组合的语音,全部录一次,播放时再把每个字的语音串起来就可以了。
我之前带过的一位录取到西北大学的同学擅长声乐和喜爱二次元动漫,所以我帮他规划设计了研究虚拟歌姬洛天依的声音特征的小科研,作为他主要的学术活动。
洛天依声库使用基于日本雅马哈公司开发的VOCALOID歌声合成引擎,VOCALOID编辑器是洛天依声库工作的载体。在why西北的文书中,我们讲述了从被机器人唱歌吸引到关注真人和机器人演唱的差异,强调自己match西北大学的跨领域精神以及学习language technology的热情,让自己的智力也可以唱出与自己的歌喉一样美妙的歌声。
与发音相反的过程是对语音的接收和理解过程。与发音过程相比,接收和理解过程更为复杂,比如前几天的一条热搜是说某位有威海口音的阿姨录制的一段语音在微信转文字时被误认为是英语。
在微博上这是一个笑话,但在语音识别领域就是一个重大的挑战。由于语音的接收和理解过程比较难以直观地展示,我用一个文字的示例来演示这个问题的难点在哪里。大家看下面这张图片。
一般熟悉英语的人应该会马上把这两个单词识别为THE CAT.但如果深究起来,第一个单词中间的字母和第二个单词中间的字母被设计者写成了一模一样的,也就是说,它们既不是一个完美的H也不是一个完美的A而是介于两者之间。
但为何英语使用者会毫无压力地立刻把前者判别为H,后者判别为A,并且判断出这两个词的含义呢?在这个判断过程里我们心理上或者大脑中经历了什么样的过程呢?回到语音识别的困境里,我们如何让计算机也能在困难的情形下做出不亚于真人的判断和识别呢?这就是心理和神经语言学要攻克的难题。
心理和神经语言学作为语言学和心理学、神经科学的交叉学科,有许多可以做的有趣的活动。我带过两位对这个领域感兴趣的学生也都收获了非常好的录取结果。
其中一位录取到哥伦比亚大学的同学小时候曾经被职责为情商低,他后来通过阅读语言学方面的书籍了解到自己是因为无法准确分辨别人的“言外之意”,虽然随着年龄和阅历的增长这种情形已经完全改善,但他意识到这个问题也许对计算机识别言外之意会有所帮助。
我指导这位同学阅读了许多该领域内的论文,同时鼓励他写信给其中一位教授提出自己的实验想法,教授给了他热情洋溢的回信并告诉我们MIT的Ted Lab正在进行这方面的研究,我于是又鼓励学生给MIT的教授写信,非常意外的是我们很快收到了Ted教授的回信并邀请这名同学在暑假到他的实验室开展科研。
我们在提交申请时这段科研才处在起步的阶段,但我们的想法受到了Ted教授的积极肯定也拿到了有力的推荐信。这名同学以语言学学术兴趣入读哥大后最终决定转向统计和神经科学专业。
另外一位录取到约翰霍普金斯的同学一直非常关注自闭症群体,她长期在自闭症和智力发展迟缓干预机构开展义工活动,在此基础上我帮助她联系到了清华大学和北京语言大学研究自闭症语言问题的教授,学生完整参与了一项自闭儿童眼动与语义识别的实验,并参与了论文撰写和发表。在申请文书中学生表达了迫切地希望用自己的力量扭转国内对于自闭症人群的错误认知,以及投身于病理语言学社区的愿望。
通过上面的例子可以看到,语言学可以为同学们的课外活动提供一些不一样的切入点,同时,相比于直接竞争计算机科学、神经科学等热门专业,对于转换专业较为友善的学校,我们可以考虑曲线救国,并且是在不耽误自己真正兴趣的前提下进行。