人工智能 - 数据分析和决策

这部分主要分为四个层次：

数据收集
数据清理
数据分析
决策

数据收集

在人工智能领域数据收集是至关重要的一个环节，它是用于训练模式的输入来源。

作为基础的概念复习，数据收集无非是把目标进行采样，同时我们需要使用科学的方法使样本接近于目标。

作为采样的方法，通常可以分为三种：

简单随机采样
系统采样
分层采样

简单随机采样最好理解，使用随机数发生器对目标空间随机采取样本；对于系统采样，通常强调一种顺序性质；但是往往我们的真实世界并不都是顺序可以表示的，所以这时可以使用分层采样来进行，它先对目标进行分类，在类别中可以结合其他采样方式，例如：系统采样或简单随机采样，这种采样玩玩更具有目标的参考意义。

采样方法虽分三种，但是采样途径却有各种方式，常见的有以下：

调查
问卷
采访，或焦点小组
交易跟踪
在线跟踪
社交媒体监控

收集数据要遵循正式行，合法性，以及道德性。

数据清理

数据清理是为了让样本数据更加准确地反映目标，对于清理首先需要定义变量，这样进而便于操作。

数据类型

数值型数据

离散数据
连续数据

分类型数据

序列数据
名义数据

离散数据是个数形式，它是确定的整数，而连续数据是一种可以无限精确的数值，它是浮点数；对于序列数据是数据集之间存在关联性，而名义数据则没有。

数据收集准则

避免偏见

数据偏见要遵从数据来源的确定性，它要能真实反映实际情况，除此之外，数据的采样方法和测量手段也同等重要。
数据表示

数据表示一般使用表格形式，例如横轴表示记录变量值，纵轴表示采样单元属性。
数据纠正

数据纠正需要去除重复或者拼写错误的数据记录，尽可能地使数据有效性最大化。
数据强化

数据强化是增加更多的采样单元属性，这样可以收集更多样本属性。
偏离值

偏离值是一种采样中出现的错误数据，对于这种偏离值需要进行删除操作。

数据清理最重要的一个环节就是去除偏离值。

数据分析

数据分析之前，需要明白一些基本的数学概念，这样便于理解数据的分布结构，更好地进行数据分析。

基本数据类型

众数

出现频数最多的数值。
均值

样本空间的数据平均值。
中位数

样本空间中处于中间的数值，对于奇数个数的样本，它就是最中间的数值，对于偶数个数的样本，它是中间两个样本的平均值。
极差

样本中最大数值和最小数据的差值。
方差

方差由标准的方差公式而来，方差值越大说明样本数据越不能收敛。
标准差

标准差是方差开根号后的正数，性质类似于方差。

概率论原理

概率论的基本性质：

假设S为样本的全集。

假设A和B为样本集的子集。

假设A和B没有交集。

可以得到三个公理：

对于任何事件A，其概率符合非负性。
对于必然发生的事件，其概率为1。
对于任意多个互不相容的事件，它们的并的概率等于它们各自概率的和。

概率分布通常分为两种：

离散分布，对应于概率质量函数（PMF）
连续分布，对应于概率密度函数（PDF）

常见的分布函数

简单离散分布

不存在自由变量，概率发生是等可能事件，例如：抛出的硬币出现正面或者反面的概率。
二项式分布

二项式分布是一种离散分布，通常具有以下四点性质：
- 重复多次性质（用N表示）
- 结果独立，结果之间互不影响
- 只有两个结果，结果没有交集
- 概率值不会
对于二项式分布，它属于概率质量函数（PMF），它的自由变量是p。
高斯分布

高斯分布又称正态分布，它是用于连续分布的常见模型。

高斯分布函数属于概率密度函数（PDF），它的自由变量为均值μ和标准差σ。
泊松分布

泊松分布用于统计单位时间或空间段事件发生的概率。泊松分布的特点是，事件的发生是相互独立的，即前后事件之间没有影响关系。在实际应用中，泊松分布被广泛用于服务系统的模型设计、排队论、电信等领域。

泊松分布属于概率质量函数（PMF），它的自由变量是λ。

决策

上面只是介绍了数据分析的各种数学分析方法和相应的数学模型，对于人工智能来说，至关重要的环节是进行决策判断，因此我们使用的样本要保证能够准确代表目标，这样才能做出正确的决策。

这里我们使用数学原理，来进行模拟和验证，以确定样本的数学模型。

估算原理

估算原理主要以介绍最大似然估计（MLE），最大似然估计方法分为五个步骤：

设定模型和参数。

对于数学模型，可以通过数据观察或经验，来选定一个数学模型，例如估算目标体只有两个结果的，我们可以假设为二项式分布，那么它的自由参数就是p。
写出似然函数。

对于二项式分布的概率质量函数（PMF）为：

其似然函数为：
取对数似然函数。

再计算对数似然函数：

化解求得：
求解参数的极值。

化解求得：

假设：

可解析得到：
使用似然估计方法计算自由变量参数。

似然估计值：

统计假设验证

通过上节的方法，可以通过似然估计得到自由变量参数的值，但是对于当时选择的数学模型是否正确，是否与实际的目标空间相匹配，并没有进行相关讨论。

其实很多时候，我们选择的数学模型可能是错误，我们可能需要多个数学模型依次尝试才能确定相符合的数学模型，这章节就是使用统计验证假设方法，从而让我们的模型准确匹配目标，这样人工智能才可以做出正确的决策。

统计假设检验的步骤

统计假设检验是一个决定接受或拒绝统计假设的过程。以下是进行统计假设检验的一般步骤：

建立假设：首先，我们需要设置两个假设。零假设（H0）通常表示原始的，被测试的理论。而备择假设（H1）则是我们想要证明的新理论。
决定显著性水平：显著性水平（通常记为α）是你愿意接受的犯第一类错误（即拒真错误，错误地拒绝零假设）的概率。常见的显著性水平有0.05和0.01。
选择适当的统计检验：根据你的数据类型和目标，选择一个适当的统计检验。例如，如果你要比较两组数据的平均值，你可能会选择t检验。
确定临界值或计算 p 值：
- 临界值法：将计算得到的检验统计量与临界值进行比较。如果检验统计量超出临界值，则拒绝原假设。
- p 值法：如果 p 值小于显著性水平 α，则拒绝原假设。
结论：如果我们拒绝了零假设，那么我们就接受了备择假设，认为我们的新理论是对的。如果我们没有拒绝零假设，那么我们就说没有足够的证据来支持我们的新理论，但这并不意味着我们的旧理论就一定是正确的。

个人站点

人工智能笔记 - 数据分析和决策