GPT-4已经可以通过哈佛大一的课程考核?

两门A,一门A-,一门B,一门B-,一门及格。

对于一名哈佛大学的大一新生来说,这已经是一份相当不错的成绩单,合计3.57的GPA成绩也很可观。

Maya Bodnick 在哈佛大学的政治专业就读大一,上面提到的就是她的大一成绩,但严格来说这些成绩不是她的,而是GPT-4的。

如果你在美国大学学习社会科学或人文学科,一般都需要完成很多写作作业 —— 教授会通过这些作业来评估学生对教材的掌握程度,以及他们的创造性和分析性思维。

但随着ChatGPT和GPT-4这样先进的大语言模型(Large Language Model,简称LLM)的兴起,写作作业作为一项评估工具的可靠性似乎逐渐受到威胁。

人工智能聊天机器人GPT-4可以通过哈佛的大一考试吗?

Maya Bodnick 就亲自做了一项实验 ——  GPT-4 能通过哈佛大学的大一考试吗?

她邀请了哈佛大学的7位教授和助教对GPT-4根据课堂提示所写的论文进行评分,这些作文大多是主要作业,约占学生课堂成绩的四分之一至三分之一。

以下是论文的题目、指导教师姓名以及每篇论文的评分:

微观经济学和宏观经济学

导师:Jason Furman, David Laibson

题目:创造性地解释一个经济概念。Explain an economic concept creatively

字数限制:微观300-500字,宏观800-1000字

成绩:A-

拉丁美洲政治

导师:Steven Levitsky

题目:近几十年来,是什么导致了拉丁美洲的多次总统危机?What has caused the many presidential crises in Latin America in recent decades?

字数限制:5-7 页

成绩:B-

美国总统

导师:Roger Porter

题目:选择一位现代总统,谈论他最大的三项成就和最大的三次失败。Pick a modern president and identify his three greatest successes and three greatest failures. 

字数限制:6-8页

成绩:A

冲突解决

导师:Daniel Shapiro

题目:描述你生活中的一次冲突,并就如何协商冲突提出建议。Describe a conflict in your life and give recommendations for how to negotiate it.

字数限制:7-9页

成绩:A

中级西班牙语

导师:Adriana Gutiérrez

题目:给积极分子 Rigoberta Menchú 写一封信。Write a letter to activist Rigoberta Menchú. 

字数限制:550-600字

成绩:B

关于普鲁斯特的新生研讨会

导师:Virginie Greene

题目:精读《追寻逝去的时光》中的一段文字。Close read a passage from In Search of Lost Time.

成绩:PASS

Maya 告诉这些导师,每篇论文都可能是由她本人或AI撰写的,以尽量减少反应偏差(response bias),但事实上所有论文都是由GPT-4撰写的,GPT-4是OpenAI 的聊天机器人最新版本。

为了生成这些文章,Maya 将提示(比上述摘要详细得多)一字不差地输入到GPT-4中,并完全按照GPT-4生成的文本进行了提交,不过为了满足字数要求(GPT-4 一次只能写750字左右),她也要求GPT-4再扩展一些想法,并对数次给出的答复进行整合和排序。

Maya 请教授按照常规程序对论文进行评分,不过所有论文都没有进行引用,因此这个部分是例外,忽略不计。

结果显示,GPT-4的答案不仅能通过哈佛大学以社会科学和人文科学为主的典型大一课程,而且还能获得相当不错的成绩 —— 成绩都是在A-和B-之间(以及研讨会课的及格)。

几位教授和助教对GPT-4的论文都给出很不错的评价:

写作风格非常优美!

It is beautifully written!

文章写得很好,表达清晰!

Well written and well articulated paper.

思路清晰,文笔生动!

Clear and vividly written.

作者的声音表达得非常清晰!

The writer’s voice comes through very clearly.

不过GPT-4的写作风格也并没有获得一致好评 —— 冲突解决课的助教批评了其“花里胡哨”的写作风格:

我认为适当简化写作风格会比较好,文中似乎存在过度使用形容词和隐喻的问题。

I might urge you to simplify your writing — it feels as though you’re overdoing it with your use of adjectives and metaphors.”

相比文风,教授和助教们对内容的评价更为正面。美国总统课的助教给GPT-4的论文评了A等级:

论文很好地达到了每个要求。

The paper does a very good job of hitting each requirement.

微观经济学课助教也给论文评了A等级:

令人印象深刻......对细节的关注……

Impressive...attention to detail.

不过最让人惊喜的应该是 GPT-4 为冲突解决课论文想出来的虚构冲突剧情,碰巧“剧情”就与人工智能有关

我发现我的室友一直在使用一种先进的人工智能系统来完成他的作业,这种系统远超出抄袭检测软件可以检测的范围...... 对我来说,这像是一种背叛,不仅是对大学学术诚信准则的背叛,也是对我们之间无言契约的背叛,对我们共同付出的汗水和泪水的背叛,对学习中固有的奋斗精神的背叛。

我一直都很钦佩他的天赋,但现在却觉得他的天赋受到了玷污,是夸大成功的海市蜃楼,掩盖了求知欲和学术精神。

I’ve discovered that Neil [my roommate] has been using an advanced AI system to complete his assignments, something far more sophisticated than the plagiarism detection software can currently uncover... To me... it feels like a betrayal. Not just of the university’s code of academic honesty, but of the unspoken contract between us, of our shared sweat and tears, of the respect for the struggle that is inherent in learning. I’ve always admired his genius, but now it feels tainted, a mirage of artificially inflated success that belies the real spirit of intellectual curiosity and academic rigor.

冲突解决课的助教很喜欢这篇文章的分析,评了A级:

有说服力,很好地运用了课程概念。

Persuasive. Made great use of the course concepts.

不过,也有一些论文的评分相对一般,比如中级西班牙语(B)和拉丁美洲政治(B-),问题主要在于内容和论证,导师的评价如下:

没有分析。

No analysis.

论文没有论述任何支持总统制或联合总统制的论点,也完全没有考虑经济因素。

The paper fails to deal with any of the arguments in support of presidentialism or coalitional presidentialism and completely fails to take economic factors into account.

Maya表示,哈佛大学一直存在分数膨胀问题,所以对实验结果的一种解释是:“在哈佛大学拿A并不难。” 虽然不能排除这样的解读,但如果你读了GPT-4生成的文章,它们确实还是很不错的。

也许在普林斯顿大学或加州大学伯克利分校(这两所学校的评分更为严格),A和 B会变成B和C-,但仍然在及格的范围内。

综上,Maya从GPT-4不俗的整体表现推断出,人工智能生成的论文或许可以在全美大多数大学的文社科类课程中获得及格成绩。

人工智能有可能使下一代智力贫乏?

在ChatGPT推出之前,Maya认识的绝大多数大学生都会通过Google去完善自己的论文帮助。但人工智能之前的互联网其实是做不到真正的“高水平抄袭”,因为你根本无法找到复杂、具体、有创意或个性化的答案。

以上面提到的冲突解决课论文为例,写作要求非常具体(需要7-9页的篇幅),且个人化(要求学生写出自己的一段生活经历),如果单靠Google,根本帮不上什么忙。

在网络作弊盛行的时代,学生必须花功夫在网上寻找材料,并根据论文的要求东拼西凑,其中肯定会夹杂一些自己的写作,同时也需要顾及引用的部分。鉴于被发现的风险颇高,很多学生怕被抄袭检测器或老师发现,也不敢直接复制粘贴网络上的资料。

但在ChatGPT推出的那一刻起,这些问题似乎都迎刃而解 —— 论文作弊变得前所未有地简单。它可以有针对性地回答任何问题。

如果说Chat GPT还存在缺陷,那GPT-4可以说是更趋向完美,准确性有了极大的提高,它可以生成一个完整的答案,几乎不需要学生进行编辑或查找资料,而且在引用方面还在不断改进。不仅如此,随着 OpenAI 的不断创新,其准确性还会越来越高。

学生也不必担心被发现,人工智能检测器还存在很大缺陷,且尚未在大学校园内广泛推广。而且,GPT-4 每次写出的内容都不一样,随着时间的推移,聊天机器人会越来越善于创造一种个人化的、独特的写作风格,GPT-4 甚至有可能学会每个人的写作风格,并调整自己的回答以适应这种风格。

这项技术让作弊变得非常简单,而且目前还很难被发现,Maya预计很多学生会在写论文时使用GPT-4。

根据国际学术诚信中心(International Center for Academic Integrity)2020 年的一项研究,约有60%的大学生承认存在某种形式的作弊行为。

Intelligent.com、BestColleges 和 Study.com 最近的调查也发现,在学校作业中使用ChatGPT的受访大学生占比在 33%至89% 之间,而这仅仅是ChatGPT面世的第一年。随着ChatGPT不断改进,其使用率会越来越高,学生使用ChatGPT的积极性也会越来越高。

即将在今年秋季入学的大一新生如果在作业中使用GPT-4,他们应该可以不费吹灰之力就在所有论文中取得及格成绩。

换句话说,除非教授对论文和考核形式作出调整,否则人工智能将消除人文和社会科学领域的D和F等级,而这是ChatGPT仅仅推出第八个月后就出现的现象。

GPT-4是于今年5月发布的,其训练数据集的规模是原始模型的 571倍 没人能预测未来,但如果人工智能继续以这种飞快的速度进步,通过不断改进的GPT-4或其他更先进的版本,每一位学生都能在大学每一门社会科学和人文课上取得优异成绩。

我们似乎走上了“通识教育完全商品化”的道路 —— GPT-4使学生能够完成大学课程,但过程中无需学习、无需培养批判性思维能力、无需付出任何努力。

不能完全接受人工智能,就需要有效阻止人工智能的使用。

对于人工智能的兴起,Maya最初的反应是:教师应该接受它,就像20-25年前接受刚开始兴起的互联网一样,也许教授可以把ChatGPT生成的对论文等同于D等级的标准。

但如今看来,根据人工智能发展的速度,聊天机器人很快就会超越普通大学生的写作能力,因此将GPT-4生成的论文定为D等级的标准是不合理的。

技术分析师 Ben Thompson 曾提议,大学可以让学生在内部的LLM模型生成论文,并对人工智能生成的答案进行验证,而大学主要评估的就是学生的验证能力。

然而,这样的建议无法防止作弊 —— 学生可以使用不同的LLM模型验证答案,然后将这些答案输入学校的系统,老师都是无从得知的。更关键的是,仅仅教会学生验证人工智能生成的结果是不够的,他们应该要学会培养分析性思维和表达自己的想法。

Maya认为,如果我们不能完全接受人工智能,就需要有效防止人工智能的过度使用。

第一种方法自然是善用人工智能检测器来防止作弊的情况出现。但是,这些检测器目前还存在很大缺陷:“目前人工智能检测器的实际应用并不可靠。只要稍微把人工智能生成的论文按自己的措辞修改一下,即使我们用最好的检测器,辨别的准确率也只有50%。”马里兰大学的教授 Soheil Feizi 在一项研究中表示。

OpenAI 的检测器最近就因准确率低而被关闭,而华盛顿邮报近日也测试了 Turnitin 的检测器,该检测器在他们在大多数被测试的文本中都出现了错误。

虽然人工智能检测器会在未来不断进步,并被广泛使用,但学生对躲避这种人工智能检测工具的需求可能会超过学校对更好的检测器的需求,不难想象,想要制造一个精确无误的检测器实际上比躲避检测器的检测更难。即使检测器准确无误,如果学生愿意花点时间自行改写人工智能的措辞,也大概率能“逃过一劫”。

鉴于目前人工智能检测的局限性,Maya 认为现下最合适的办法就是改变论文的形式 —— 让学生在教授或助教的监督下在课堂上撰写论文,而不是让他们把作业带回家完成。

另一个方法就是,学生可以在监督之下先写一份论文初稿,并将初稿提交给助教,然后在家里继续进行扩写和修改。助教可以根据学生最终提交的论文进行评分,同时也审核初稿,确保学生在家中撰写论文时没有通过人工智能的帮助大幅度修改初稿的要点。

不仅是大学教授,各级教育工作者都在想办法防止学生用人工智能写作文。在初中和高中阶段,学校显然需要通过阻止人工智能作弊,才能确保学生能够真正培养写作和批判性思维能力。

然而在大学层面,防止大学生滥用 GPT-4 的工作更为复杂,且风险甚至更高。即使大学能成功阻止学生使用 GPT-4 撰写论文,也无法阻止人工智能取代他们毕业后的工作 —— 

许多社会科学和人文学科的毕业生从事的工作与他们在大学时的写作类似,如果人工智能能完美复制这些专业的学生在大学里所做的事情,那么很快它就能复制他们进入职场后的实际工作。

以法律领域为例,人工智能可以完成绝大多数法律写作的“粗活”,还有其他白领领域也面临着类似的威胁:市场营销、销售、客户服务、商业咨询、编剧、行政办公室工作以及新闻业等等,要知道Google新推出的人工智能已经可以撰写新闻报道。

人工智能对文社科作业的影响,侧面也反映了文社科毕业生倾向进入的职业领域目前受到的威胁。

也许我们真正应该关注的不是“如何结合当今的人工智能科技,重新设计文社科的作业和考核形式?”,而是 “未来10-20年,工作会产生什么样的变化?我们该如何培养学生在这样的职业环境中取得成功?”

文社科专业学生在学习生涯中花费大多数的时间写论文,而他们在后人工智能时代将面临更大的困难。人工智能不仅仅是冲着大学论文来的,更是冲着新一代的“大脑”来的。

参考链接:https://www.chronicle.com/article/gpt-4-can-already-pass-freshman-year-at-harvard

【竞赛报名/项目咨询请加微信:mollywei007】

上一篇

AECC发布全球留学趋势报告 2024留学申请季正式拉开序幕!

下一篇

今年大二老师喊我写综述合理吗?

你也可能喜欢

  • 暂无相关文章!

评论已经被关闭。

插入图片
返回顶部
Baidu
map