后面做为例子的是ChatGPT备考GRE 的过程,但可以延伸到所有考试的备考,因为测试和出题的方式都是类似的。
从ChatGPT出来以后Google 的紧张度可以看出目前最直接的ChatGPT的应用还是在搜索相关领域,而目前版本的ChatGPT和Google之前的区别主要也是呈现形式上的不同,调用的数据上Google 的范围可能还更广些。比如我们要找GRE 备考适合的单词表,如果输入中文的情况下,Google 是会调用中文互联网的数据的,而ChatGPT 只是把自己英文的结果翻译为了英文
对应ChatGPT 英文的回答
所以中文的版本基本就是把英文的翻译了一下,只是不知道为什么在中文版本里面去掉了第5个选项。【实际备考的时候建议用基于考试题目的词表就好,不建议用这些机构词表,这个立场适用于所有考试】
所以对于找资料这方面,特别是涉及中文互联网方面的资料,ChatGPT 目前版本的还不能很理想。
那关于做题呢?
GRE 一共有涉及写作、语文(包括阅读理解和填空)和写作(包括Issue 和 Argument)。之前分享过一个ChatGPT 答题写作部分的推送。实现效果还是很好的。
下面看下其他几个部分的情况
填空部分
2022年底的时候尝试过一次用ChatGPT 来做GRE 的填空题,之后ChatGPT 有小的更新下,这次测试用的是2023.2.13 的更新版本 (ChatGPT Feb 13 Version.)。和去年底的相比,做题的正确率是一样的,只是多了答案的解析(只是一个错误答案的解释,你说的这么铮铮有词也是很难为)。
具体题型来看,单空的题目正确率目前看是几个题型里面最高的,但也会有错。
比如下面这个题目
实际答案应该是zealous,题目想说的是那些最在乎 genetic privacy 的人也要承认给予genetic 的歧视是比较少的。这个题目关键就是要明白genetic privacy 和genetic discrimination 之间的关系。这两个之间的关系举一个现实生活里的例子就可以明白,比如我们申请的时候有时候不想明确自己的族裔,或者性别(包括自己这方面的privacy),就是不希望学校录取时候有基于这些信息的歧视。所以要privacy,是希望减少discrimination,因此题目要选的应该是zealous。
而ChatGPT 这题没做对主要是语言能力还没那么强(就像大多数的学校写作任务,ChatGPT也差不多是B+ 的能力,还实现不了A+)。我们也可以用这个题目来观察下未来ChatGPT 的进步曲线。
两空和三空分部分本身对于考生阅读能力的要求会更高些,所以ChatGPT 在这两个题型的正确率只是偶尔能做对(事实上到目前为止还没遇到过ChatGPT 能做对的多空题,所以“偶尔”是一个很保守的说法)。
下面这个题目是去年年底时候要ChatGPT 做的,正确答案应该是 plausible 和undermined
下面这个是2.13 版本的ChatGPT 的答案
和去年年底的版本相比,增加了解析的部分,只是答案还是错的。
做错原因,其实和人类做错的原因是一样的:阅读能力不够。
下面是正确答案的出题依据:如果从机器角度来思考的话,类似这样的多空题的出题依据其实是比较复杂的,题目考的不仅仅是要一个合适语义的单词,只是在给的有限的选项里面,选一个最为合适的。所以比如第二空我们的判断的证据是需要一个负向单词,而选项里面只有undermine 是负向的,所以选这个词。从做题情况看,目前AI 在这方面的判断能力还不理想。
Despitethe fact that the political scientist's negative forecast about the country's future is altogether (i)_______, itsbelievabilityis (ii)_______byherunrelenting pessimism.
- plausiblespeculative unpalatable
- disciplined distinguishedundermined
阅读部分
阅读和填空不同的地方是,ChatGPT 是能读到完整的文本的,所以做题效果应该会好些。
实际是逻辑题做的不错。
传统的阅读理解的题目做的不好。
逻辑题目的做题情况【下面这题是做对的】
虽然这个解析的过程,看着用处不大(只是把题目重复了一遍),但呈现出来的做题思路是对的,逻辑题做题的第一步就是要找到 argument 里的证据和结论,然后看到题目要的是assumption,就去找证据到结论过程中缺的信息。
只是这个解析对于同样如果是做错题的同学来说确实是用处不大的。
阅读理解是不同考试都有的类型,从GRE 的阅读理解题目做题效果来看:很不理想。
连下面的这个主旨题也错了。觉得ChatGPT 主旨题应该做对的原因是微软示范它们最新的Bing(ChatGPT-4 加持)搜索的时候,一个例子就是可以直接放个会议文件的PDF 进去,Bing 可以整理出来文档的大概意思。实际上哪怕目前对外公开的ChatGPT-3 版本,在总结文章和书籍的意思的时候,做的也是不错的。所以这种主旨题没能做对,只能说对于GPT 来说,选项间的混淆度有些高。
数学部分
GPT 的数学是出了名的差,下面是WSJ 的报道 【2023.2.10 的文章】
文章里面示范了一个例子, 当时ChatGPT 做错了
但是这个题目我再用GPT 做了一遍,下面这个回答是对的,一共应该是23个。
只是目前这个版本的GPT 在做GRE 数学题目的时候还是错了。下面这个题目可能是有些难了,正确答案是E,GPT 给了D 的答案
Suppose a, b, c, d, e are selected randomly from the set {1, 2, 3, 4, 5} and they can repeat. Find the probability that a*b*c*d+e is odd.
- 12/25
- 27/125
- 243/3125
- 1632/3125
- 1794/3125
又让ChatGPT 做了一个GRE数学的几何题
这题也是做错了。正确答案应该是一个point: 就是通过P,Q,R三点的圆的圆心。
总结一下
目前版本的GPT对于标准化考试的帮助更多还是在写作方面的,当然这也符合群众经验,毕竟更多看到的作弊的情况都是用GPT来写作文或者文书。