0%

人工智能笔记 - 数据分析和决策

人工智能 - 数据分析和决策

这部分主要分为四个层次:

  • 数据收集
  • 数据清理
  • 数据分析
  • 决策

数据收集

在人工智能领域数据收集是至关重要的一个环节,它是用于训练模式的输入来源。

作为基础的概念复习,数据收集无非是把目标进行采样,同时我们需要使用科学的方法使样本接近于目标。

作为采样的方法,通常可以分为三种:

  1. 简单随机采样
  2. 系统采样
  3. 分层采样

简单随机采样最好理解,使用随机数发生器对目标空间随机采取样本;对于系统采样,通常强调一种顺序性质;但是往往我们的真实世界并不都是顺序可以表示的,所以这时可以使用分层采样来进行,它先对目标进行分类,在类别中可以结合其他采样方式,例如:系统采样或简单随机采样,这种采样玩玩更具有目标的参考意义。

采样方法虽分三种,但是采样途径却有各种方式,常见的有以下:

  • 调查
  • 问卷
  • 采访,或焦点小组
  • 交易跟踪
  • 在线跟踪
  • 社交媒体监控

收集数据要遵循正式行,合法性,以及道德性。

数据清理

数据清理是为了让样本数据更加准确地反映目标,对于清理首先需要定义变量,这样进而便于操作。

数据类型

数值型数据

  • 离散数据
  • 连续数据

分类型数据

  • 序列数据
  • 名义数据

离散数据是个数形式,它是确定的整数,而连续数据是一种可以无限精确的数值,它是浮点数;对于序列数据是数据集之间存在关联性,而名义数据则没有。

数据收集准则

  • 避免偏见

    数据偏见要遵从数据来源的确定性,它要能真实反映实际情况,除此之外,数据的采样方法和测量手段也同等重要。

  • 数据表示

    数据表示一般使用表格形式,例如横轴表示记录变量值,纵轴表示采样单元属性。

  • 数据纠正

    数据纠正需要去除重复或者拼写错误的数据记录,尽可能地使数据有效性最大化。

  • 数据强化

    数据强化是增加更多的采样单元属性,这样可以收集更多样本属性。

  • 偏离值

    偏离值是一种采样中出现的错误数据,对于这种偏离值需要进行删除操作。

数据清理最重要的一个环节就是去除偏离值。

数据分析

数据分析之前,需要明白一些基本的数学概念,这样便于理解数据的分布结构,更好地进行数据分析。

基本数据类型

  • 众数

    出现频数最多的数值。

  • 均值

    样本空间的数据平均值。

  • 中位数

    样本空间中处于中间的数值,对于奇数个数的样本,它就是最中间的数值,对于偶数个数的样本,它是中间两个样本的平均值。

  • 极差

    样本中最大数值和最小数据的差值。

  • 方差

    方差由标准的方差公式而来,方差值越大说明样本数据越不能收敛。

  • 标准差

    标准差是方差开根号后的正数,性质类似于方差。

概率论原理

概率论的基本性质:

  • 假设S为样本的全集。

  • 假设A和B为样本集的子集。

  • 假设A和B没有交集。

可以得到三个公理:

  1. 对于任何事件A,其概率符合非负性。

  2. 对于必然发生的事件,其概率为1。

  3. 对于任意多个互不相容的事件,它们的并的概率等于它们各自概率的和。

概率分布通常分为两种:

  • 离散分布,对应于概率质量函数(PMF)
  • 连续分布,对应于概率密度函数(PDF)

常见的分布函数

  • 简单离散分布

    不存在自由变量,概率发生是等可能事件,例如:抛出的硬币出现正面或者反面的概率。

  • 二项式分布

    二项式分布是一种离散分布,通常具有以下四点性质:

    • 重复多次性质(用N表示)
    • 结果独立,结果之间互不影响
    • 只有两个结果,结果没有交集
    • 概率值不会

    对于二项式分布,它属于概率质量函数(PMF),它的自由变量是p。

  • 高斯分布

    高斯分布又称正态分布,它是用于连续分布的常见模型。

    高斯分布函数属于概率密度函数(PDF),它的自由变量为均值μ和标准差σ。

  • 泊松分布

    泊松分布用于统计单位时间或空间段事件发生的概率。泊松分布的特点是,事件的发生是相互独立的,即前后事件之间没有影响关系。在实际应用中,泊松分布被广泛用于服务系统的模型设计、排队论、电信等领域。

    泊松分布属于概率质量函数(PMF),它的自由变量是λ。

决策

上面只是介绍了数据分析的各种数学分析方法和相应的数学模型,对于人工智能来说,至关重要的环节是进行决策判断,因此我们使用的样本要保证能够准确代表目标,这样才能做出正确的决策。

这里我们使用数学原理,来进行模拟和验证,以确定样本的数学模型。

估算原理

估算原理主要以介绍最大似然估计(MLE),最大似然估计方法分为五个步骤:

  1. 设定模型和参数。

    对于数学模型,可以通过数据观察或经验,来选定一个数学模型,例如估算目标体只有两个结果的,我们可以假设为二项式分布,那么它的自由参数就是p。

  2. 写出似然函数。

    对于二项式分布的概率质量函数(PMF)为:

    其似然函数为:

  3. 取对数似然函数。

    再计算对数似然函数:

    化解求得:

  4. 求解参数的极值。

    化解求得:

    假设:

    可解析得到:

  5. 使用似然估计方法计算自由变量参数。

    似然估计值:

统计假设验证

通过上节的方法,可以通过似然估计得到自由变量参数的值,但是对于当时选择的数学模型是否正确,是否与实际的目标空间相匹配,并没有进行相关讨论。

其实很多时候,我们选择的数学模型可能是错误,我们可能需要多个数学模型依次尝试才能确定相符合的数学模型,这章节就是使用统计验证假设方法,从而让我们的模型准确匹配目标,这样人工智能才可以做出正确的决策。

统计假设检验的步骤

统计假设检验是一个决定接受或拒绝统计假设的过程。以下是进行统计假设检验的一般步骤:

  1. 建立假设:首先,我们需要设置两个假设。零假设(H0)通常表示原始的,被测试的理论。而备择假设(H1)则是我们想要证明的新理论。
  2. 决定显著性水平:显著性水平(通常记为α)是你愿意接受的犯第一类错误(即拒真错误,错误地拒绝零假设)的概率。常见的显著性水平有0.05和0.01。
  3. 选择适当的统计检验:根据你的数据类型和目标,选择一个适当的统计检验。例如,如果你要比较两组数据的平均值,你可能会选择t检验。
  4. 确定临界值或计算 p 值:
    • 临界值法:将计算得到的检验统计量与临界值进行比较。如果检验统计量超出临界值,则拒绝原假设。
    • p 值法:如果 p 值小于显著性水平 α,则拒绝原假设。
  5. 结论:如果我们拒绝了零假设,那么我们就接受了备择假设,认为我们的新理论是对的。如果我们没有拒绝零假设,那么我们就说没有足够的证据来支持我们的新理论,但这并不意味着我们的旧理论就一定是正确的。

欢迎关注我的其它发布渠道