统计学(statistics)是应用数学的一个分支,它通过利用概率论来建立数学模型,收集到观察到的数据,然后进行一系列的量化分析和总结,最后进行相应的推断和预测。其目的是为了给决策者提供参考信息,帮助其作出决定。统计学应用领域非常广泛,在物理、化工、生物,人文社会领域甚至是战争情报信息搜集上都有应用。
AP统计学覆盖了大多数基础的统计学原理和知识,是很多专业的大学一年级必修课。
最近,网上流传着这么一张图,描述了美国各大学学生入睡时间与其大学排名之间的关系,如下图所示(此图来源于Jawbone):
在AP统计学中,我们把这张图叫做Scatter plot,图中的那条线我们叫做Linear regression line。
大家可以非常明显地看见,这张图表现出不同的美国大学的Weekday bed time和US news大学排名这两个变量(Variable)之间的关系。
从图上看,入睡时间和大学排名之间还是存在比较强的负相关性(negative association)的。也就是说,如果该大学排名越高,可以预计到该校学生的平均入睡时间越晚。
当然,在途中也出现了一个离群值(outlier)。比较明显的有Air Force Academy和Army/Navy/Coast Guard,这几个学校的特殊性质决定了它必须是outlier。
Columbia University也属于一个Outlier,也正好说明了想站在顶端,确实要比别人多花好几倍的努力。
然而,在AP统计学中,单单一个Scatter plot只是表现出了两个变量之间的association,但并不能说两者之间就存在Causation,在这里并没有实际证据证明,大学排名越高就会导致该校学生入睡时间越晚。
再来个另外的例子,一般来说比较发达的城市,汽车保有量比较大,人均寿命也高。相对落后的地区,汽车保有量小,人均寿命也短。在Scatter plot上面,各个城市的汽车保有量和人均寿命这两个变量(Variable)存在正相关性。
但是我们能说汽车保有量增加会导致人均寿命增加吗?
AP统计学学习内容(考纲)