解码数据世界：统计学入门与应用指南

最新推荐文章于 2025-03-02 17:17:06 发布

码拉松

最新推荐文章于 2025-03-02 17:17:06 发布

阅读量1.1k

点赞数 27

分类专栏：精选分享文章标签：生活学习

本文链接：https://blog.csdn.net/CSDN_WYL2016/article/details/137976310

版权

引言

统计学可以被定义为研究数据的科学，它涉及到数据的收集、分析、解释和呈现。其目标是从数据中提取有意义的信息，并使用这些信息来做出推断与决策。

统计学主要分别以下几个主要领域：

描述性统计：使用图表、图形和其他工具来总结和描述数据的特征。
推断性统计：使用概率论来从样本数据推断总体的特征，包括估计和假设检验。
回归分析：研究变量之间的关系，并预测一个变量基于其他变量的值。

统计学不仅是一门科学，也是一门语言，他使我们能够和数据对话。随着大数据和人工智能的发展，统计学的重要性将进一步增加，因为它是理解和利用这些技术的基础。

第一部分：基本概念

统计学中常见的基本概念包括：

总体：指研究对象的全部个体。

样本：指从总体中选取的一部分个体，通过对样本的研究，可以推断总体的特征。

变量：指可以在不同观测值之间变化的特征或属性，根据变量的类型可分别定性数据和定量数据。比如投骰子时，统计投中1到6每个数值的次数，得到的数据就是定量数据，如果投中1到3认为是“小”，投中4到6认为是“大”，此时得到的数据就是定性数据。

概率：指某个事件发生的可能性的度量，通常表示为0到1之间的数值。

随机变量：变量可以取多个值，因此在统计学中，经常会用到具有概率分布特性的变量，这就是随机变量。（随机变量，只有通过试验才能确认其数值。）随机变量可以是离散的（取有限或可数的值）或连续的（取无限且连续的值）。

置信区间：指的是一个参数可能值的一个范围区间，并指定了这个区间包含真实参数值的置信水平，比如（95%，99%）

常见的统计量包括：

最大值、最小值：最大值、最小值主要用来发现数据的边界，通过计算最大值与最小值的差值，还可以得到数据的极差值，这些都有助于对整体数据的范围有所了解。

平均值(μ) ：平均值反映了一组数据集中趋势的量数，是指一组数据中的所有数据之和再除以这组数据的个数。

例题1：美术组有2名女生，2人平均8岁，3名男生， 3人平均13岁，美术组5人平均多少岁?

美术组2名女生一共：28=16岁，3名男生一共：313=39岁

美术组5人平均年龄 = 总年龄 ÷ 总份数 = (16+39) ÷ 5 = 11岁

例题2：五个数的平均数是8,若把其中的一个数改为20,平均数变为11，这个数原来是多少?

五个数总和 = 8 * 5 = 40

其中一个数改为20后总和 = 11 * 5 = 55

总和相差：15，因此原数 = 5

中位数：指按照顺序排列的一组数据中居于中间位置的数，如果总数是偶数时，正中间会有两个数据，把两个数据相加再除以2就是中位数。中位数同平均数一样，常用来反映一组数据集中趋势情况，与平均数不同的是，中位数不受数据集中极大或极小值的影响，中位数表示所观察的数据集中有一半的数大于它，另一半的数小于它。