人工智能 - 数据分析和决策
这部分主要分为四个层次:
- 数据收集
- 数据清理
- 数据分析
- 决策
数据收集
在人工智能领域数据收集是至关重要的一个环节,它是用于训练模式的输入来源。
作为基础的概念复习,数据收集无非是把目标进行采样,同时我们需要使用科学的方法使样本接近于目标。
作为采样的方法,通常可以分为三种:
- 简单随机采样
- 系统采样
- 分层采样
简单随机采样最好理解,使用随机数发生器对目标空间随机采取样本;对于系统采样,通常强调一种顺序性质;但是往往我们的真实世界并不都是顺序可以表示的,所以这时可以使用分层采样来进行,它先对目标进行分类,在类别中可以结合其他采样方式,例如:系统采样或简单随机采样,这种采样玩玩更具有目标的参考意义。
采样方法虽分三种,但是采样途径却有各种方式,常见的有以下:
- 调查
- 问卷
- 采访,或焦点小组
- 交易跟踪
- 在线跟踪
- 社交媒体监控
收集数据要遵循正式行,合法性,以及道德性。
数据清理
数据清理是为了让样本数据更加准确地反映目标,对于清理首先需要定义变量,这样进而便于操作。
数据类型
数值型数据
- 离散数据
- 连续数据
分类型数据
- 序列数据
- 名义数据
离散数据是个数形式,它是确定的整数,而连续数据是一种可以无限精确的数值,它是浮点数;对于序列数据是数据集之间存在关联性,而名义数据则没有。
数据收集准则
避免偏见
数据偏见要遵从数据来源的确定性,它要能真实反映实际情况,除此之外,数据的采样方法和测量手段也同等重要。
数据表示
数据表示一般使用表格形式,例如横轴表示记录变量值,纵轴表示采样单元属性。
数据纠正
数据纠正需要去除重复或者拼写错误的数据记录,尽可能地使数据有效性最大化。
数据强化
数据强化是增加更多的采样单元属性,这样可以收集更多样本属性。
偏离值
偏离值是一种采样中出现的错误数据,对于这种偏离值需要进行删除操作。
数据清理最重要的一个环节就是去除偏离值。
数据分析
数据分析之前,需要明白一些基本的数学概念,这样便于理解数据的分布结构,更好地进行数据分析。
基本数据类型
众数
出现频数最多的数值。
均值
样本空间的数据平均值。
中位数
样本空间中处于中间的数值,对于奇数个数的样本,它就是最中间的数值,对于偶数个数的样本,它是中间两个样本的平均值。
极差
样本中最大数值和最小数据的差值。
方差
方差由标准的方差公式而来,方差值越大说明样本数据越不能收敛。
标准差
标准差是方差开根号后的正数,性质类似于方差。
概率论原理
概率论的基本性质:
- 假设S为样本的全集。
- 假设A和B为样本集的子集。
- 假设A和B没有交集。
可以得到三个公理:
对于任何事件A,其概率符合非负性。
对于必然发生的事件,其概率为1。
对于任意多个互不相容的事件,它们的并的概率等于它们各自概率的和。
概率分布通常分为两种:
- 离散分布,对应于概率质量函数(PMF)
- 连续分布,对应于概率密度函数(PDF)
常见的分布函数
简单离散分布
不存在自由变量,概率发生是等可能事件,例如:抛出的硬币出现正面或者反面的概率。
二项式分布
二项式分布是一种离散分布,通常具有以下四点性质:
- 重复多次性质(用N表示)
- 结果独立,结果之间互不影响
- 只有两个结果,结果没有交集
- 概率值不会
对于二项式分布,它属于概率质量函数(PMF),它的自由变量是p。
高斯分布
高斯分布又称正态分布,它是用于连续分布的常见模型。
高斯分布函数属于概率密度函数(PDF),它的自由变量为均值μ和标准差σ。
泊松分布
泊松分布用于统计单位时间或空间段事件发生的概率。泊松分布的特点是,事件的发生是相互独立的,即前后事件之间没有影响关系。在实际应用中,泊松分布被广泛用于服务系统的模型设计、排队论、电信等领域。
泊松分布属于概率质量函数(PMF),它的自由变量是λ。
决策
上面只是介绍了数据分析的各种数学分析方法和相应的数学模型,对于人工智能来说,至关重要的环节是进行决策判断,因此我们使用的样本要保证能够准确代表目标,这样才能做出正确的决策。
这里我们使用数学原理,来进行模拟和验证,以确定样本的数学模型。
估算原理
估算原理主要以介绍最大似然估计(MLE),最大似然估计方法分为五个步骤:
设定模型和参数。
对于数学模型,可以通过数据观察或经验,来选定一个数学模型,例如估算目标体只有两个结果的,我们可以假设为二项式分布,那么它的自由参数就是p。
写出似然函数。
对于二项式分布的概率质量函数(PMF)为:
其似然函数为:
取对数似然函数。
再计算对数似然函数:
化解求得:
求解参数的极值。
化解求得:
假设:
可解析得到:
使用似然估计方法计算自由变量参数。
似然估计值:
统计假设验证
通过上节的方法,可以通过似然估计得到自由变量参数的值,但是对于当时选择的数学模型是否正确,是否与实际的目标空间相匹配,并没有进行相关讨论。
其实很多时候,我们选择的数学模型可能是错误,我们可能需要多个数学模型依次尝试才能确定相符合的数学模型,这章节就是使用统计验证假设方法,从而让我们的模型准确匹配目标,这样人工智能才可以做出正确的决策。
统计假设检验的步骤
统计假设检验是一个决定接受或拒绝统计假设的过程。以下是进行统计假设检验的一般步骤:
- 建立假设:首先,我们需要设置两个假设。零假设(H0)通常表示原始的,被测试的理论。而备择假设(H1)则是我们想要证明的新理论。
- 决定显著性水平:显著性水平(通常记为α)是你愿意接受的犯第一类错误(即拒真错误,错误地拒绝零假设)的概率。常见的显著性水平有0.05和0.01。
- 选择适当的统计检验:根据你的数据类型和目标,选择一个适当的统计检验。例如,如果你要比较两组数据的平均值,你可能会选择t检验。
- 确定临界值或计算 p 值:
- 临界值法:将计算得到的检验统计量与临界值进行比较。如果检验统计量超出临界值,则拒绝原假设。
- p 值法:如果 p 值小于显著性水平 α,则拒绝原假设。
- 结论:如果我们拒绝了零假设,那么我们就接受了备择假设,认为我们的新理论是对的。如果我们没有拒绝零假设,那么我们就说没有足够的证据来支持我们的新理论,但这并不意味着我们的旧理论就一定是正确的。