绪论
什么是机器学习
机器学习,就是让计算机拥有想人一样的学习能力的技术,从堆积如山的数据中寻找有用知识的数据挖掘技术,如从视频库中寻找自己喜欢的视频资料,根据用户的购买记录向用户推荐其他相关商品。
根据处理数据种类的不同,可以分为监督学习,无监督学习,强化学习几种类型。监督学习是指既给数据,又给答案,对这种规律进行概括,从而对没学习过的数据也能做出正确解答,让计算机获得这种泛化能力是监督学习的目标。非监督学习是指没有明确答案,只有数据,学习目标不必十分明确,计算机自己提取其中规律的过程。这一类机器学习的典型任务有聚类、异常检测等。强化学习与监督学习类似,不设置答案,自己对预测的结果进行评估,往往认为是人类主要的学习方式之一,在机器人自动控制,游戏中的人工智能,市场战略的最优化等方面有广泛运用,强化学习中经常用到回归,分类,聚类,降维等机器学习算法。
机器学习任务的例子
回归是指把实函数在样本点附近加以近似的有监督的函数近似问题,作为训练集的输入输出样本是已知的,需要获得一个函数y = f(x)使得无论什么问题输出的答案于真实的函数f对应,获得这个函数是监督学习的最终目标。分类是指对于特定模式进行识别的有监督的模式识别问题,对d维实向量x为输入样本,所有的输出样本,可以划分为c个类别的问题进行说明。异常检测是指寻找输入样本中包含的异常数据的问题。聚类属于无监督学习的一种,只给出输入样本,判断各个样本分别属于哪个簇,相同簇之间具有相同性质,如何判断样品直接相似度是很重要的课题。降维是指从高纬度的数据中提取关键信息,转换为易于计算的低纬度问题进而求解的方法。
在已知模式x的时候如果能求得使分类类别y的条件概率p(y|x)达到最大值的类别y的话,就可以进行模式识别了。
学习模型
线性模型
在对函数f进行近似时,最简单的模型就是线性模型θ×x。θ表示模型的参数,通过对这个参数进行学习完成函数的近似计算,这个模型只能表现线性的输入输出函数,没有太多实用价值,对上述的线性模型进行相应的扩展,可以使线性模型用于表示非线性的输入输出。
$$
f_θ(x) = \sum_{j=1}^b\theta_j\phi_j(x)=\theta^T\phi(x)
$$
其中θj (x)基函数向量的第j个因子,b是基函数的个数。