各位AP小伙伴们好呀~2022年5月5日进行的AP统计考试已经结束,本场考试为线下纸笔考试,CB官网已更新了2022AP统计北美FRQ真题。
整体分析
今年这套北美卷的难度非常适中,和以往考题的相似度极高。
并且最难的FRQ6难度相较于以往难度也是偏低的,因此考生只要之前的复习充分,不难考出好成绩。下面我们来逐题分析每个题目的知识点以及对应做法。
逐题分析
第一题:
这道题的背景很有意思,生物学家调查了11只牛蛙的长度与重量,并给出scatterplot。四个小问分别考察到了:描述图表、度量值的描述、residual的定义。
(a)需要同学们描述重量与长度的关系。是非常常规的描述图表类问题。考生只需要从direction、form、strength和outlier四个点入手即可。从图像来看,重量与长度的关系是相对较强的positive linear relationship。
(b)考察关于slope of regressionline 的描述。这个部分有固定套路,即为当x increaseby one unit, then the predicted value of y increase by constant。
(c)考察关于coefficientof determinant 的描述。同b问有固定答题模板。即为 there are —— percent of variability in y canbe explained by regression line on x。前三小问都是需要in context,也就是将套话中的x与y带换成题目中的length与mass。
(d)考察关于residual的定义以及回归线的高估与低估。考生需要知道residual的定义为某点的实际值-预测值。从而在(i)小问中找到residual的绝对值最大的点。进而根据residual的正负回答下一问,即(ii)小问中regression line 高估还是低估实际值。这部分同学们要注意:residual大于0,代表回归线低估实际值;residual小于0,代表回归线高估实际值。
第二题:
这一题目说到了关于某一个新treatment与治疗痘痘之间的关系。考察到了unit 3当中实验部分的知识点,包括:实验术语、matched pair 的优点以及random assignment的过程。
(a)考察实验术语,这题难度不大。treatment为新药物和旧药物, experimental unit 是人,response variable为最终痘痘的评分。
(b)这一问问的是matched pair design相比于block design的优点。实际上matched pair是一种特殊的block,但每个blcok只有2个相似的人。所以paired design不仅可以使得实验数据的variability更加小,更加方便比较2个treatment的不同,还更能保证接受treatment1与treatment2的人们完全一致,更好的控制变量。
(c)考察关于random assignment people的过程。我们需要首先给人们进行编号(label),接下来用random number generator找到一半的数字,这些数字的人们对应接受treatment1,其余接受treatment 2。(PS:其余随机分组方式譬如抽签也是正确的,这里只是提供一个模板)
第三题:
题目背景是罐装洗发水的机器,每次罐装的量会有波动。进而问道一些概率问题。考察到了 normal distribution、binomial distribution的概率计算。
(a)这道题目说某瓶洗发水净含量小于0.5为不合格,求不合格的概率。已知洗发水罐装的量X服从正态分布,求mean=0.6,standard derivation为0.04. 求X小于0.5的概率。同学们利用计算器里的normal CDF即可算出正确答案。
(b)这一问是说抽10瓶洗发水检查,如果2瓶以上洗发水为不合格,那么整个生产线都会被认为有问题。求生产线被认为有问题的概率。上一问已经计算出一瓶洗发水不合格的概率,假设为a。那么10瓶洗发水当中不合格的数量B服从binomial distribution, n=10,p=a。只需要利用计算器的binomial CDF计算B大于等于2的概率即可。
(c)这一问说若每瓶洗发水重量分布变成mean=0.56, standard derivation为0.03的正态分布,那么整条生产线会被拒绝的概率会变大还是变小?这道题目可以直接利用新分布算出每一瓶洗发水不合格的概率(可以看出应该是比A问算出的结果更大),从而解释每一瓶洗发水不合格的概率都变大,整体生产线被拒绝的概率更大。
第四题:
这一题求all teenagers想要 video streaming service 的比例问题。考察关于区间构造以及区间含义。
(a)这一问考察构造区间的四步法(同学们可以参考TD原创的FRQ解题核心四步法这一份文件,里面有非常详细的解释和说明)。第一步根据问题选择合适的interval—oneproportion z interval;第二步验证 random、normal、independence三个条件;第三步利用计算器进行计算;最后一步描述刚刚算出的区间即可。
(b)这一问考察区间的含义:区间内的值都是可信的population parameter。通过分析题目中说的0.5是否在区间当中得到结论即可。
第五题:
这一题探究黑白巧克力对降血压的帮助。考察到了median的计算、test的作用以及 p value的定义。
(a)这一问让同学们分别计算出黑、白巧克力的median并进行比较,属于常规计算类问题。
(b)给出样本均值差为5.66mmHg,问同学们为何不能得出检验结论。这道题目看起来比较难写。实际上我们只要写出如下内容即可:抽样有波动性,不通过概率计算的方式来判断样本是否极端(即不计算p value),是无法直接从样本数据中判断出检验结论的。
(c)这一题与2009 年北美FRQ真题Form B卷的第5题非常相似。即为给出sampling distribution of sample mean difference的simulation。让同学们计算出 pvalue,从而下检验结论。p value 是比我们抽样得到的样本还要极端的概率,我们通过simulation可以看出,比5.66还大的概率就是p value(约为3/120)。
第六题:
比较2个医院对于病患的治愈率。考察了基础概率计算、因果关系结论以及概率理解。
(a)这一问需要学生根据two way table算出conditional probability,并在第二问比较2个医院整体治愈率的大小。
(b)问我们通过上面的数据,能否得到不同医院导致不同治愈率的关系。考生需要注意:题目当中出现了cause这个词语,代表题目询问我们能否得到因果关系,而 cause and effect relationship是需要做实验才能得到的,因此同学们只需要分析题目中是否在做实验(或者是否进行了random assignment即可),注意如果没有做实验,则不能得到因果关系。
(c和d)小问主要考察学生对于概率的理解。这问题将病患分成轻症与重症,并在c问要求我们分别计算2个医院对于轻重症病患的治愈率,发现不管对于轻症患者还是重症患者,B医院的治愈率都是更高的。
(d)这一问要求我们解释为什么分开来看,B医院的治愈率都更高,但将轻重证病人合起来计算之后,B医院的治愈率反而更低了?这个问题是统计学上很有意思的辛普森悖论,考纲中没有,感兴趣的同学可以仔细上网查找。解决这个问题的思路主要是:轻重症病人人数不同,但轻症的治愈率本身相对于重症更高。而对于b医院来说,重症病人人数太多,重症病人较低的治愈率稀释了整体治愈率。