• 欢迎访问数智,大数据学习

【ML第一节】:机器学习基本概念

机器学习 Raybra_Wei 2年前 (2018-07-10) 285次浏览 0个评论 扫描二维码

1.1 认识机器学习

基本认识:机器学习是人工智能领域中最能体现智能的一个分支学科,它横跨计算机科学,工程技术和统计学等多个学科,它能从海量的数据或者数据集中获取对我们有用的知识,来体现数据背后的真正含义。机器学习研究的主要内容是关于在计算机从数据中产生模型的算法,即“学习算法”,在报告后面,我会将学习的机器学习的经典算法做一定的介绍和演示。

机器学习概念:机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能(选至百科)。

应用领域:专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人、大数据挖掘等,本报告主要阐述机器学习在大数据挖掘方面的知识。

工具软件:Python、Matlab、R、SAS 等,这里主要使用 python 进行算法的演示。

1.2 基本术语

算法一系列解决问题的步骤,比如:在一个班中有 40 名同学,我们通过其中的 30 名同学的身高与体重得出了一个线性关系,然后我们能够通过得出的这个线性关系来预测另外 10 名同学的身高或者体重,那么我们从中得出的“线性回归”称为一个算法

学习算法从数据中产生模型的方法;

样本或:研究中实际观测或调查的一部分个体,比如:我们需要考察一个班级 40 名学生的身体素质情况,那么我们从中挑选 20 名学生做考察,那么这 20 名学生则称为样本

标签关于示例的结果信息,比如:银行里存了很多的贷款用户信息,通过一段时间的考察,记录了每个用户是否违约,如果违约了就记录为 1 值,没有违约则记录位 0 值,那么这里的 1 或者 0 就是标签

特征对象某方面的表现或特征,比如:在银行贷款信息记录表中,关于一个用户的消费金额,欠款金额等,在这个信息表汇总,这类表现用户表现的信息就是特征

训练集训练样本组成的集合,比如:在叙述算法概念时,我们取了 30 名学生的信息归纳出了一个“线性模型”,我们通过这 30 名同学的信息不断的矫正我们的算法,那么 30 个同学的信息集就是训练集

测试集测试数据组成的集合;比如,在上述的线性模型中,我们提出了 10 名同学,但是这 10 名同学的身高或者体重并没有得出,那么我们可以通过我们得出的线性模型对这 10 名同学的身高或者体重进行预测,那么这 10 名同学组成的集合就是测试集

分类预测的数据是离散值时,我们需要对这些数据进行区分;比如:在叙述标签概念时,我们对用户是否违约用了 0 或 1 表示,那么这个问题就是一个分类问题;

聚类训练集中的对象分为若干组;比如:我们购买了各种种类的豆子。豆子分为黄色,红色,绿色,但是这些豆子是混乱杂乱的,那么我们需要将这些豆子分为 3 类,分别是黄色、红色、绿色,那么将这些豆子分为 3 组的人物便是一个聚类任务;

回归预测值是连续值是,回归在我们上述的身高体重问题中提到,知道了一个同学的身高或者体重,那么这位同学的体重或者身高的预测问题便是一个回归问题;

【ML 第一节】:机器学习基本概念


数智 Lab , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:【ML 第一节】:机器学习基本概念
喜欢 (0)
[]
分享 (0)
关于作者:
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址