引言
统计学可以被定义为研究数据的科学,它涉及到数据的收集、分析、解释和呈现。其目标是从数据中提取有意义的信息,并使用这些信息来做出推断与决策。
统计学主要分别以下几个主要领域:
- 描述性统计:使用图表、图形和其他工具来总结和描述数据的特征。
- 推断性统计:使用概率论来从样本数据推断总体的特征,包括估计和假设检验。
- 回归分析:研究变量之间的关系,并预测一个变量基于其他变量的值。
统计学不仅是一门科学,也是一门语言,他使我们能够和数据对话。随着大数据和人工智能的发展,统计学的重要性将进一步增加,因为它是理解和利用这些技术的基础。
第一部分:基本概念
统计学中常见的基本概念包括:
总体:指研究对象的全部个体。
样本:指从总体中选取的一部分个体,通过对样本的研究,可以推断总体的特征。
变量:指可以在不同观测值之间变化的特征或属性,根据变量的类型可分别定性数据和定量数据。比如投骰子时,统计投中1到6
每个数值的次数,得到的数据就是定量数据,如果投中1到3
认为是“小”,投中4到6
认为是“大”,此时得到的数据就是定性数据。
概率:指某个事件发生的可能性的度量,通常表示为0到1
之间的数值。
随机变量:变量可以取多个值,因此在统计学中,经常会用到具有概率分布特性的变量,这就是随机变量。(随机变量,只有通过试验才能确认其数值。)随机变量可以是离散的(取有限或可数的值)或连续的(取无限且连续的值)。
置信区间:指的是一个参数可能值的一个范围区间,并指定了这个区间包含真实参数值的置信水平,比如(95%,99%)
常见的统计量包括:
最大值、最小值:最大值、最小值主要用来发现数据的边界,通过计算最大值与最小值的差值,还可以得到数据的极差值,这些都有助于对整体数据的范围有所了解。
平均值(μ) :平均值反映了一组数据集中趋势的量数,是指一组数据中的所有数据之和再除以这组数据的个数。
例题1:美术组有2名女生,2人平均8岁,3名男生, 3人平均13岁,美术组5人平均多少岁?
美术组2名女生一共:28=16岁,3名男生一共:313=39岁
美术组5人平均年龄 = 总年龄 ÷ 总份数 = (16+39) ÷ 5 = 11岁
例题2:五个数的平均数是8,若把其中的一个数改为20,平均数变为11,这个数原来是多少?
五个数总和 = 8 * 5 = 40
其中一个数改为20后总和 = 11 * 5 = 55
总和相差:15,因此原数 = 5
中位数:指按照顺序排列的一组数据中居于中间位置的数,如果总数是偶数时,正中间会有两个数据,把两个数据相加再除以2就是中位数。中位数同平均数一样,常用来反映一组数据集中趋势情况,与平均数不同的是,中位数不受数据集中极大或极小值的影响,中位数表示所观察的数据集中有一半的数大于它,另一半的数小于它。
例题:找出这组数据:23、29、20、32、23、21、33、25 的中位数。
首先排序:20、21、23、23、25、29、32、33
中位数:(23+25) ÷ 2 = 24
众数:指在一组数据中出现次数最多的数,众数同样是用来反映一组数据集