机器学习概述-程序员宅基地

技术标签：机器学习

在这里插入图片描述

一、什么是机器学习

机器学习是一种人工智能技术，通过对数据的学习和分析，让计算机系统自动提高其性能。简而言之，机器学习是一种从数据中学习规律和模式的方法，通过数据来预测、分类或者决策。

在这里插入图片描述

二、机器学习的工作原理

机器学习的工作原理主要包括以下几个步骤：

数据收集：首先需要收集数据并将其转化为可以计算的形式，例如数值、文本或图像等。
数据预处理：数据收集后，需要对数据进行清洗、去除异常值、缺失值处理、特征选择等预处理步骤。
特征工程：是指在机器学习中对原始数据进行转换、组合和选择等处理，以提取更有用的特征或属性，以帮助机器学习算法更好地理解和处理数据。简而言之，特征工程就是对原始数据进行预处理，以提取有用信息来辅助机器学习。
模型选择：根据问题的特点和数据的特征选择适合的机器学习算法和模型。
模型训练（机器学习）：利用已有数据对所选的机器学习模型进行训练，从而使模型能够学习数据中的规律和模式。
模型评估：训练完成后，需要对模型进行评估和调整，以检查其性能和精度，并进行优化。
模型应用：经过训练和优化后，机器学习模型可以用于新数据的预测、分类、聚类等任务。

三、数据简介

数据简介

在数据集中一般：
- 一行数据我们称为一个样本
- 一列数据我们称为一个特征
- 有些数据有目标值（标签值），有些数据没有标签值
数据类型构成
- 数据类型一：特征值+目标值（目标值是连续的和离散的）
- 数据类型二：只有特征值，没有目标值
数据分割
- 机器学习一般的数据集会划分为两个部分：
  - 训练数据：用于训练，构建模型
  - 测试数据：在模型检验时使用，用于评估模型是否有效
- 划分比例：
  - 训练集：70% 80% 75%
  - 测试集：30% 20% 25%

四、特征工程

什么是特征工程

是指在机器学习中对原始数据进行转换、组合和选择等处理，以提取更有用的特征或属性，以帮助机器学习算法更好地理解和处理数据。简而言之，特征工程就是对原始数据进行预处理，以提取有用信息来辅助机器学习。
为什么要用到特征工程

特征工程是机器学习中非常重要的一环，因为好的特征能够提高算法的精度和效率，甚至决定了机器学习模型的上限。因此，进行特征工程需要根据具体问题和数据特点进行灵活选择和处理，以达到最佳效果。
特征工程包含的内容
- 特征提取：从原始数据中提取特征，通常是利用数学和统计方法对数据进行转换和降维，例如主成分分析（PCA）、奇异值分解（SVD）等。
- 特征转换（特征预处理）：将提取的特征进行转换，以符合算法的需求，例如将类别特征转换为数值特征，或者对数值特征进行标准化。
- 特征降维：指在某些限定条件下，降低随机变量（特征）个数，得到一组“不相关”主变量的过程
- 特征选择：根据特征的重要性和相关性等指标，选择最具有代表性的特征，以减少计算复杂度和提高算法性能。

五、机器学习算法分类

监督学习

输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值（称为回归），或是输出有限个离散值（称为分类）
- 回归问题
  
  例如：预测房价，根据集拟合出一条连续曲线
- 分类问题
  
  例如：根据肿瘤特征判断良性还是恶性，得到的是结果是“良性”或者“恶性”，是离散的
无监督学习

输入数据是由输入特征值组成，没有目标值。输入数据没有被标记，也没有确定的结果，样本数据类别未知；需要根据样本间的相似性对样本集进行类别划分。
- 有监督，无监督算法对比：
半监督学习

训练集同时包含有标记样本数据和未标记样本数据
- 监督学习训练方式和半监督学习训练方式的区别:
  1. 数据量不同：监督学习需要大量有标签的数据来进行训练，而半监督学习则可以利用部分有标签数据和大量无标签数据进行训练。
  2. 模型的预测能力：监督学习的模型在处理未知数据时需要有标签的数据作为参考，而半监督学习的模型可以更好地利用未标记数据来提高预测能力。
  3. 训练时间：由于半监督学习使用了更多的数据进行训练，因此需要更长的时间来完成模型的训练。
  4. 精度：半监督学习的模型在某些情况下可以比监督学习的模型具有更好的精度，尤其是当标记数据很少的时候。
  5. 应用场景：监督学习适用于已经有标签数据的问题，例如分类和回归等问题，而半监督学习适用于数据集标签数量较少或标签数据难以获得的问题。
强化学习

实质就是make decisions问题，即自动进行决策，并且可以做连续决策。强化学习的的目标就是获得最多的累计奖励。
- 强化学习的五个元素：
  
  agent、action、reward、environment、observation
- 监督学习的强化学习的对比：
四种学习算法的小结

六、模型评估

模型评估是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。

按照数据集的目标值不同，可以把模型评估分为分类模型评估和回归模型评估。

分类模型评估

例如：肿瘤良性、恶性预测模型
- 准确率：
  
  预测正确的数占样本总数的比例。
- 其他评价指标：
  
  精确率、召回率、F1-score、AUC指标等。
回归模型评估

例如：房价预测模型
- 均方根误差（Root Mean Squared Error，RMSE）
  
  RMSE是一个衡量回归模型误差率的常用公式。不过，它仅能比较误差是相同单位的模型。
- 均方根误差公式
- 举例：
  
  假设有一个房价预测模型，只有五个样本，对应的
  
  真实值为：100，120，125，230，400
  
  预测值为：105，119，120，230，410
  
  则均方根误差求解得：
  $RMSE=\sqrt[2]{\frac{[(105-100)^2+(119-120)^2+(120-125)^2+(230-230)^2+(410-400)^2]}{5}}=5.495$
拟合

模型评估用于评价训练好的模型的表现效果，其表现效果大致可以分为两类：过拟合、欠拟合。
- 欠拟合（under-fitting）：模型学习的太过粗糙，在训练集中的样本数据特征关系都没有学出来。
- 过拟合（over-fitting）：所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越，导致在测试数据集中表现不佳。

本文链接：https://blog.csdn.net/Despicable_Me/article/details/130176712

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

SpringBoot从入门到精通教程_springboot教程-程序员宅基地

文章浏览阅读10w+次，点赞193次，收藏2k次。对于SpringBoot，很多人咨询了我的研究学习资料来源，除官方文档外，特例完整整理一下自己的平时参考学习其他资料，以及分享实战项目源码和代码资源，供大家参考学习主要教程一、我的SpringBoot系列教程（2020.3更新）我的SpringBoot系列进阶教程（Github仓库源码地址）基于springboot 2.0.6.RELEASE版本的代码演示集合：SpringBo..._springboot教程

(转)Oracle 10.2.0.1 升级到 10.2.0.4-程序员宅基地

文章浏览阅读38次。--*********************************-- Oracle 10.2.0.1升级到10.2.0.4--********...

ribbon核心组件IRule_irule ribbon 简图-程序员宅基地

文章浏览阅读477次。Irule的功能根据特定的算法中从服务列表中选取一个要访问的服务ribbon的架构图1.在eurekaserver中查询可用服务列表2.根据负载均衡策略（轮询，随机，响应时间加权等），选在一个服务ribbon的负载均衡服务有7个RoundRobinRule轮训RandomRule随机AvailabilityFilteringRule会优先过滤掉由于多次访问故障而处于断路器跳闸状态的服务，还有并发的连接数超过临界值的服务，然后对剩余的服务列表按照轮训策略进行访问Weig_irule ribbon 简图

基于AWS和CDH的大数据处理平台企业级架构的研究_替代cdh大数据平台-程序员宅基地

文章浏览阅读1k次。摘要该期刊的目的是研究在企业生产环境下大数据架构的相关技术，包括操作系统配置，Cloudera管理器安装，CDH集群部署和集群参数调优，Kerberos集成，LDAP集成，保护传输中的数据安全和保护静态数据安全.生产环境依赖于AWS云服务。实验内容：CDH集群部署和集群参数调优；企业级身份验证系统kerberos；使用一个轻量级目录访问协议（LDAP）目录管理认证；当启动集群时用TLS/SSL..._替代cdh大数据平台

DedeCMS织梦框架识别_织梦的框架-程序员宅基地

文章浏览阅读280次。DedeCMS框架_织梦的框架

Windows UAC权限详解以及因为权限不对等引发的若干问题分享-程序员宅基地

文章浏览阅读1.3w次，点赞103次，收藏97次。Windows UAC权限详解以及因为权限不对等引发的若干问题分享。_uac权限

随便推点

matlab矩阵的表示和简单操作_matlab矩阵命名没有恰当的方法属性或字段-程序员宅基地

文章浏览阅读2.1k次。S是要建立的稀疏矩阵的非0元素，u(i)、v(i)分别是S(i)的行和列下标，该函数建立一个max(u)行、max(v)列并以S为稀疏元素的稀疏矩阵。(2) 矩阵的伪逆如果矩阵A不是一个方阵，或者A是一个非满秩的方阵时，矩阵A没有逆矩阵，但可以找到一个与A的转置矩阵A’同型的矩阵B，使得：ABA=A，BAB=B 此时称矩阵B为矩阵A的伪逆，也称为广义逆矩阵。(1) 提取矩阵的对角线元素设A为m*n矩阵，diag(A)函数用于提取矩阵A主对角线元素，产生一个具有min(m,n)个元素的列向量。_matlab矩阵命名没有恰当的方法属性或字段

(一）数字图像处理基础知识点_数字图像处理知识点-程序员宅基地

文章浏览阅读3.2k次，点赞2次，收藏34次。数字图像处理学习笔记_数字图像处理知识点

基于ECS使用FileZilla Server建立安全的SSL/TLS FTP_filezella server安全配置-程序员宅基地

文章浏览阅读282次。注意：剩下的保持默认即可。上述结果表明已经成功登陆。_filezella server安全配置

环境变量法来实现Docker中nginx配置文件参数的动态修改_nginx 使用docker环境变量-程序员宅基地

文章浏览阅读1.1k次。Docker进入大众的视野已经7个年头了（国内火起来），可谓是经历了多次的大热大冷，走到今天我觉得它还是一个中小企业实现运维自动化的不二选择。18年接触Docker时根据公司业务制作了一系列的订制镜像，今天重启基础服务升级。将制作经验分享出来。1、在docker run -it 镜像名:版本 -e 指定环境变量文件 -v指定映射文件目录 -d 后台运行。执行命令：docker build -t 镜像名:版本 ._nginx 使用docker环境变量

Android CPU架构之ARM和X86_android x86-程序员宅基地

文章浏览阅读7.5k次，点赞4次，收藏36次。中央处理器（Central Processing Unit，简称CPU）作为计算机系统的运算和控制核心，是信息处理、程序运行的最终执行单元。——百度百科将晶体管作为开关，将一个开关的输出端与另一个的输入端相连，就能构成各种逻辑电路和功能块，这些功能块采用的形式包括加法器、锁存器、触发器、寄存器、计数器等等，我们可以使用这些功能块构建自定义执行单元来执行特定计算。归根结底，CPU就是构建多个专用处理元件，并用多种方式将它们连接起来，从而实现复杂的计算的芯片。_android x86

MySQL的分布式——flask-sqlalchemy实现读写分离_flask-sqlalchemy分表解决方案-程序员宅基地

文章浏览阅读2k次，点赞3次，收藏12次。目录1、复制1.1 主从架构（一主多从）1.2 主备架构1.3 高可用复合架构2、flask-sqlalchemy实现读写分离3、分片3.1 垂直拆分3.1.1 垂直分表3.1.2 垂直分库3.2 水平拆分3.2.1 水平分表4、分布式的问题4.1 分布式事物问题解决方案4.2 解决跨节点 Join/排序/分页1、复制作用：对数据进行备份，实现高可用HA通过读写分离，提高吞吐量，实现高性能原理：当主库中有数据更新时，主库会将该操作写入一个二进制日志文件中，从库中专门有一个io线程去读取主库_flask-sqlalchemy分表解决方案