技术标签: 机器学习
机器学习是一种人工智能技术,通过对数据的学习和分析,让计算机系统自动提高其性能。简而言之,机器学习是一种从数据中学习规律和模式的方法,通过数据来预测、分类或者决策。
机器学习的工作原理主要包括以下几个步骤:
数据收集:首先需要收集数据并将其转化为可以计算的形式,例如数值、文本或图像等。
数据预处理:数据收集后,需要对数据进行清洗、去除异常值、缺失值处理、特征选择等预处理步骤。
特征工程: 是指在机器学习中对原始数据进行转换、组合和选择等处理,以提取更有用的特征或属性,以帮助机器学习算法更好地理解和处理数据。简而言之,特征工程就是对原始数据进行预处理,以提取有用信息来辅助机器学习。
模型选择:根据问题的特点和数据的特征选择适合的机器学习算法和模型。
模型训练(机器学习):利用已有数据对所选的机器学习模型进行训练,从而使模型能够学习数据中的规律和模式。
模型评估:训练完成后,需要对模型进行评估和调整,以检查其性能和精度,并进行优化。
模型应用:经过训练和优化后,机器学习模型可以用于新数据的预测、分类、聚类等任务。
数据简介
在数据集中一般:
数据类型构成
数据分割
什么是特征工程
是指在机器学习中对原始数据进行转换、组合和选择等处理,以提取更有用的特征或属性,以帮助机器学习算法更好地理解和处理数据。简而言之,特征工程就是对原始数据进行预处理,以提取有用信息来辅助机器学习。
为什么要用到特征工程
特征工程是机器学习中非常重要的一环,因为好的特征能够提高算法的精度和效率,甚至决定了机器学习模型的上限。因此,进行特征工程需要根据具体问题和数据特点进行灵活选择和处理,以达到最佳效果。
特征工程包含的内容
监督学习
输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归),或是输出有限个离散值(称为分类)
回归问题
例如:预测房价,根据集拟合出一条连续曲线
分类问题
例如:根据肿瘤特征判断良性还是恶性,得到的是结果是“良性”或者“恶性”,是离散的
无监督学习
输入数据是由输入特征值组成,没有目标值。输入数据没有被标记,也没有确定的结果,样本数据类别未知;需要根据样本间的相似性对样本集进行类别划分。
半监督学习
训练集同时包含有标记样本数据和未标记样本数据
强化学习
实质就是make decisions问题,即自动进行决策,并且可以做连续决策。强化学习的的目标就是获得最多的累计奖励。
强化学习的五个元素:
agent、action、reward、environment、observation
监督学习的强化学习的对比:
四种学习算法的小结
模型评估是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。
按照数据集的目标值不同,可以把模型评估分为分类模型评估和回归模型评估。
分类模型评估
例如:肿瘤良性、恶性预测模型
准确率:
预测正确的数占样本总数的比例。
其他评价指标:
精确率、召回率、F1-score、AUC指标等。
回归模型评估
例如:房价预测模型
均方根误差(Root Mean Squared Error,RMSE)
RMSE是一个衡量回归模型误差率的常用公式。不过,它仅能比较误差是相同单位的模型。
均方根误差公式
举例:
假设有一个房价预测模型,只有五个样本,对应的
真实值为:100,120,125,230,400
预测值为:105,119,120,230,410
则均方根误差求解得:
R M S E = [ ( 105 − 100 ) 2 + ( 119 − 120 ) 2 + ( 120 − 125 ) 2 + ( 230 − 230 ) 2 + ( 410 − 400 ) 2 ] 5 2 = 5.495 RMSE=\sqrt[2]{\frac{[(105-100)^2+(119-120)^2+(120-125)^2+(230-230)^2+(410-400)^2]}{5}}=5.495 RMSE=25[(105−100)2+(119−120)2+(120−125)2+(230−230)2+(410−400)2]=5.495
拟合
模型评估用于评价训练好的模型的表现效果,其表现效果大致可以分为两类:过拟合、欠拟合。
文章浏览阅读10w+次,点赞193次,收藏2k次。对于SpringBoot,很多人咨询了我的研究学习资料来源,除官方文档外,特例完整整理一下自己的平时参考学习其他资料,以及分享实战项目源码和代码资源,供大家参考学习主要教程一、我的SpringBoot系列教程(2020.3更新)我的SpringBoot系列进阶教程(Github仓库源码地址)基于springboot 2.0.6.RELEASE版本的代码演示集合:SpringBo..._springboot教程
文章浏览阅读38次。--*********************************-- Oracle 10.2.0.1升级到10.2.0.4--********...
文章浏览阅读477次。Irule的功能根据特定的算法中从服务列表中选取一个要访问的服务ribbon的架构图1.在eurekaserver中查询可用服务列表2.根据负载均衡策略(轮询,随机,响应时间加权等),选在一个服务ribbon的负载均衡服务有7个RoundRobinRule轮训RandomRule随机AvailabilityFilteringRule会优先过滤掉由于多次访问故障而处于断路器跳闸状态的服务,还有并发的连接数超过临界值的服务,然后对剩余的服务列表按照轮训策略进行访问Weig_irule ribbon 简图
文章浏览阅读1k次。摘 要 该期刊的目的是研究在企业生产环境下大数据架构的相关技术,包括操作系统配置,Cloudera管理器安装,CDH集群部署和集群参数调优,Kerberos集成,LDAP集成,保护传输中的数据安全和保护静态数据安全.生产环境依赖于AWS云服务。实验内容:CDH集群部署和集群参数调优;企业级身份验证系统kerberos;使用一个轻量级目录访问协议(LDAP)目录管理认证;当启动集群时用TLS/SSL..._替代cdh大数据平台
文章浏览阅读280次。DedeCMS框架_织梦的框架
文章浏览阅读1.3w次,点赞103次,收藏97次。Windows UAC权限详解以及因为权限不对等引发的若干问题分享。_uac权限
文章浏览阅读2.1k次。S是要建立的稀疏矩阵的非0元素,u(i)、v(i)分别是S(i)的行和列下标,该函数建立一个max(u)行、max(v)列并以S为稀疏元素的稀疏矩阵。(2) 矩阵的伪逆如果矩阵A不是一个方阵,或者A是一个非满秩的方阵时,矩阵A没有逆矩阵,但可以找到一个与A的转置矩阵A’同型的矩阵B,使得:ABA=A,BAB=B 此时称矩阵B为矩阵A的伪逆,也称为广义逆矩阵。(1) 提取矩阵的对角线元素设A为m*n矩阵,diag(A)函数用于提取矩阵A主对角线元素,产生一个具有min(m,n)个元素的列向量。_matlab矩阵命名没有恰当的方法属性或字段
文章浏览阅读3.2k次,点赞2次,收藏34次。数字图像处理学习笔记_数字图像处理知识点
文章浏览阅读282次。注意:剩下的保持默认即可。上述结果表明已经成功登陆。_filezella server安全配置
文章浏览阅读1.1k次。Docker进入大众的视野已经7个年头了(国内火起来),可谓是经历了多次的大热大冷,走到今天我觉得它还是一个中小企业实现运维自动化的不二选择。18年接触Docker时根据公司业务制作了一系列的订制镜像,今天重启基础服务升级。将制作经验分享出来。1、在docker run -it 镜像名:版本 -e 指定环境变量文件 -v指定映射文件目录 -d 后台运行。执行命令:docker build -t 镜像名:版本 ._nginx 使用docker环境变量
文章浏览阅读7.5k次,点赞4次,收藏36次。中央处理器(Central Processing Unit,简称CPU)作为计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。——百度百科将晶体管作为开关,将一个开关的输出端与另一个的输入端相连,就能构成各种逻辑电路和功能块,这些功能块采用的形式包括加法器、锁存器、触发器、寄存器、计数器等等,我们可以使用这些功能块构建自定义执行单元来执行特定计算。归根结底,CPU就是构建多个专用处理元件,并用多种方式将它们连接起来,从而实现复杂的计算的芯片。_android x86
文章浏览阅读2k次,点赞3次,收藏12次。目录1、复制1.1 主从架构(一主多从)1.2 主备架构1.3 高可用复合架构2、flask-sqlalchemy实现读写分离3、分片3.1 垂直拆分3.1.1 垂直分表3.1.2 垂直分库3.2 水平拆分3.2.1 水平分表4、分布式的问题4.1 分布式事物问题解决方案4.2 解决跨节点 Join/排序/分页1、复制作用:对数据进行备份,实现高可用HA通过读写分离,提高吞吐量,实现高性能原理:当主库中有数据更新时,主库会将该操作写入一个二进制日志文件中,从库中专门有一个io线程去读取主库_flask-sqlalchemy分表解决方案