人工智能笔记 - 数据分析和决策

2024年6月13日

人工智能 - 数据分析和决策

这部分主要分为四个层次:

  • 数据收集
  • 数据清理
  • 数据分析
  • 决策

数据收集

在人工智能领域数据收集是至关重要的一个环节,它是用于训练模式的输入来源。

作为基础的概念复习,数据收集无非是把目标进行采样,同时我们需要使用科学的方法使样本接近于目标。

作为采样的方法,通常可以分为三种:

  1. 简单随机采样
  2. 系统采样
  3. 分层采样

简单随机采样最好理解,使用随机数发生器对目标空间随机采取样本;对于系统采样,通常强调一种顺序性质;但是往往我们的真实世界并不都是顺序可以表示的,所以这时可以使用分层采样来进行,它先对目标进行分类,在类别中可以结合其他采样方式,例如:系统采样或简单随机采样,这种采样玩玩更具有目标的参考意义。

采样方法虽分三种,但是采样途径却有各种方式,常见的有以下:

  • 调查
  • 问卷
  • 采访,或焦点小组
  • 交易跟踪
  • 在线跟踪
  • 社交媒体监控

收集数据要遵循正式行,合法性,以及道德性。

数据清理

数据清理是为了让样本数据更加准确地反映目标,对于清理首先需要定义变量,这样进而便于操作。

数据类型

数值型数据

  • 离散数据
  • 连续数据

分类型数据

  • 序列数据
  • 名义数据

离散数据是个数形式,它是确定的整数,而连续数据是一种可以无限精确的数值,它是浮点数;对于序列数据是数据集之间存在关联性,而名义数据则没有。

数据收集准则

  • 避免偏见

    数据偏见要遵从数据来源的确定性,它要能真实反映实际情况,除此之外,数据的采样方法和测量手段也同等重要。

  • 数据表示

    数据表示一般使用表格形式,例如横轴表示记录变量值,纵轴表示采样单元属性。

  • 数据纠正

    数据纠正需要去除重复或者拼写错误的数据记录,尽可能地使数据有效性最大化。

  • 数据强化

    数据强化是增加更多的采样单元属性,这样可以收集更多样本属性。

  • 偏离值

    偏离值是一种采样中出现的错误数据,对于这种偏离值需要进行删除操作。

数据清理最重要的一个环节就是去除偏离值。

数据分析

数据分析之前,需要明白一些基本的数学概念,这样便于理解数据的分布结构,更好地进行数据分析。

基本数据类型

  • 众数

    出现频数最多的数值。

  • 均值

    样本空间的数据平均值。

    μ=1ni=1nxi\mu = \frac{1}{n} \sum_{i=1}^{n} x_i
  • 中位数

    样本空间中处于中间的数值,对于奇数个数的样本,它就是最中间的数值,对于偶数个数的样本,它是中间两个样本的平均值。

  • 极差

    样本中最大数值和最小数据的差值。

    Range=max(x)min(x)Range = max(x) - min(x)
  • 方差

    方差由标准的方差公式而来,方差值越大说明样本数据越不能收敛。

    σ2=1ni=1n(xiμ)2\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2
  • 标准差

    标准差是方差开根号后的正数,性质类似于方差。

    σ=+1ni=1n(xiμ)2\sigma = +\sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2}

概率论原理

概率论的基本性质:

  • 假设S为样本的全集。
S=SS = \mathbb{S}
  • 假设A和B为样本集的子集。
A,BSA, B \subset S
  • 假设A和B没有交集。
AB=A \cap B = \varnothing

可以得到三个公理:

  1. 对于任何事件A,其概率符合非负性。

    P(A)0P(A) \geq 0
  2. 对于必然发生的事件,其概率为1。

    P(S)=1P(S) = 1
  3. 对于任意多个互不相容的事件,它们的并的概率等于它们各自概率的和。

    P(AB)=P(A)+P(B)P(A \cup B) = P(A) + P(B)

概率分布通常分为两种:

  • 离散分布,对应于概率质量函数(PMF)
  • 连续分布,对应于概率密度函数(PDF)

常见的分布函数

  • 简单离散分布

    不存在自由变量,概率发生是等可能事件,例如:抛出的硬币出现正面或者反面的概率。

  • 二项式分布

    二项式分布是一种离散分布,通常具有以下四点性质:

    • 重复多次性质(用N表示)
    • 结果独立,结果之间互不影响
    • 只有两个结果,结果没有交集
    • 概率值不会
    P(X=k)=(nk)pk(1p)nkP(X = k) = \binom{n}{k} p^k (1-p)^{n-k}

    对于二项式分布,它属于概率质量函数(PMF),它的自由变量是p。

  • 高斯分布

    高斯分布又称正态分布,它是用于连续分布的常见模型。

    f(x)=1σ2πexp((xμ)22σ2)f(x) = \frac{1}{\sigma \sqrt{2 \pi}} \exp\left(-\frac{(x - \mu)^2}{2 \sigma^2}\right)

    高斯分布函数属于概率密度函数(PDF),它的自由变量为均值μ和标准差σ。

  • 泊松分布

    泊松分布用于统计单位时间或空间段事件发生的概率。泊松分布的特点是,事件的发生是相互独立的,即前后事件之间没有影响关系。在实际应用中,泊松分布被广泛用于服务系统的模型设计、排队论、电信等领域。

    P(X=k)=λkeλk!P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}

    泊松分布属于概率质量函数(PMF),它的自由变量是λ。

决策

上面只是介绍了数据分析的各种数学分析方法和相应的数学模型,对于人工智能来说,至关重要的环节是进行决策判断,因此我们使用的样本要保证能够准确代表目标,这样才能做出正确的决策。

这里我们使用数学原理,来进行模拟和验证,以确定样本的数学模型。

估算原理

估算原理主要以介绍最大似然估计(MLE),最大似然估计方法分为五个步骤:

  1. 设定模型和参数。

    对于数学模型,可以通过数据观察或经验,来选定一个数学模型,例如估算目标体只有两个结果的,我们可以假设为二项式分布,那么它的自由参数就是p。

  2. 写出似然函数。

    对于二项式分布的概率质量函数(PMF)为:

    P(X=k)=(nk)pk(1p)nkP(X = k) = \binom{n}{k} p^k (1-p)^{n-k}

    其似然函数为:

    L(p)=i=1mP(X=i)=i=1m(nk)pk(1p)nkL(p) = \prod_{i=1}^{m} P(X = i) = \prod_{i=1}^{m} \binom{n}{k} p^k (1-p)^{n-k}
  3. 取对数似然函数。

    再计算对数似然函数:

    (p)=logL(p)=log(i=1m(nk)pk(1p)nk)=i=1m(log(nk)+klogp+(nk)log(1p))\ell(p) = \log L(p) = \log (\prod_{i=1}^{m} \binom{n}{k} p^k (1-p)^{n-k}) = \sum_{i=1}^{m} (\log \binom{n}{k} + k \log p + (n - k) \log (1-p))

    化解求得:

    (p)=i=1m(klogp+(nk)log(1p))\ell (p) = \sum_{i=1}^{m} (k \log p + (n - k) \log (1-p))
  4. 求解参数的极值。

    d(p)dp=i=1m(xipnxi1p)=0\frac{d \ell(p)}{d p} = \sum_{i=1}^{m} (\frac{x_i}{p} - \frac{n-x_i}{1-p}) = 0

    化解求得:

    1pi=1mxi=11pi=1m(nxi)\frac{1}{p} \sum_{i=1}^{m}x_i = \frac{1}{1-p} \sum_{i=1}^{m} (n - x_i)

    假设:

    i=1mxi=S\sum_{i=1}^{m} x_i = S

    可解析得到:

    p=Smnp = \frac{S}{mn}
  5. 使用似然估计方法计算自由变量参数。

    似然估计值:

    p^=i=1mximn\hat{p} = \frac{\sum_{i=1}^{m}x_i}{mn}

统计假设验证

通过上节的方法,可以通过似然估计得到自由变量参数的值,但是对于当时选择的数学模型是否正确,是否与实际的目标空间相匹配,并没有进行相关讨论。

其实很多时候,我们选择的数学模型可能是错误,我们可能需要多个数学模型依次尝试才能确定相符合的数学模型,这章节就是使用统计验证假设方法,从而让我们的模型准确匹配目标,这样人工智能才可以做出正确的决策。

统计假设检验的步骤

统计假设检验是一个决定接受或拒绝统计假设的过程。以下是进行统计假设检验的一般步骤:

  1. 建立假设:首先,我们需要设置两个假设。零假设(H0)通常表示原始的,被测试的理论。而备择假设(H1)则是我们想要证明的新理论。
  2. 决定显著性水平:显著性水平(通常记为α)是你愿意接受的犯第一类错误(即拒真错误,错误地拒绝零假设)的概率。常见的显著性水平有0.05和0.01。
  3. 选择适当的统计检验:根据你的数据类型和目标,选择一个适当的统计检验。例如,如果你要比较两组数据的平均值,你可能会选择t检验。
  4. 确定临界值或计算 p 值:
    • 临界值法:将计算得到的检验统计量与临界值进行比较。如果检验统计量超出临界值,则拒绝原假设。
    • p 值法:如果 p 值小于显著性水平 α,则拒绝原假设。
  5. 结论:如果我们拒绝了零假设,那么我们就接受了备择假设,认为我们的新理论是对的。如果我们没有拒绝零假设,那么我们就说没有足够的证据来支持我们的新理论,但这并不意味着我们的旧理论就一定是正确的。
© 2013 – 2025 陈祥