行莫
行莫
发布于 2026-01-05 / 6 阅读
0
0

机器学习:分类、回归、聚类

机器学习:分类、回归、聚类

机器学习能够解决的问题主要分为三大类:

  • 分类问题(Classification):预测离散的类别标签
  • 回归问题(Regression):预测连续的数值
  • 聚类问题(Clustering):发现数据的内在结构

这三类问题构成了机器学习的基础,理解它们对于掌握机器学习至关重要。

1. 分类问题(Classification)

1.1 什么是分类问题?

定义: 分类问题是预测样本属于哪个离散的类别。就像给物品贴标签,每个样本都会被分配到预定义的某个类别中。

类比理解:

  • 🍎 水果分类:给你一个水果,判断它是苹果、香蕉还是橙子
  • 📧 邮件分类:判断一封邮件是垃圾邮件还是正常邮件
  • 🏥 疾病诊断:根据症状判断患者是否患有某种疾病
  • 🎓 学生分班:根据成绩将学生分到A班、B班或C班

核心特征:

  • 输出是离散的类别标签(如:是/否、A/B/C、猫/狗/鸟)
  • 类别数量是有限的、预定义的
  • 每个样本只能属于一个类别(二分类或多分类)

1.2 分类问题的类型

二分类问题(Binary Classification)

  • 只有两个类别
  • 例如:垃圾邮件/正常邮件、患病/健康、通过/不通过

多分类问题(Multi-class Classification)

  • 有三个或更多类别
  • 例如:手写数字识别(0-9共10类)、图像分类(猫/狗/鸟/车等)

多标签分类问题(Multi-label Classification)

  • 一个样本可以同时属于多个类别
  • 例如:一篇文章可以同时标记为"科技"和"人工智能"

1.3 分类问题的应用场景

应用领域具体场景类别示例
医疗健康疾病诊断良性/恶性肿瘤、糖尿病/正常
金融风控信用评估高风险/低风险、欺诈/正常交易
图像识别物体识别猫/狗/鸟、0-9数字识别
自然语言处理文本分类正面/负面情感、新闻分类
推荐系统用户偏好喜欢/不喜欢、点击/不点击
生物信息学基因分类致病基因/正常基因
网络安全入侵检测正常/异常流量、恶意软件检测

1.4 分类问题的主流算法

1.4.1 K近邻算法(KNN)

  • 原理:根据最近的K个邻居的类别来决定当前样本的类别
  • 类比:物以类聚,人以群分
  • 优点:简单直观,无需训练过程
  • 缺点:计算量大,对噪声敏感

1.4.2 逻辑回归(Logistic Regression)

  • 原理:使用Sigmoid函数将线性回归的输出映射到0-1之间,表示概率
  • 类比:用一条曲线(S型曲线)来划分两个类别
  • 优点:可解释性强,输出概率值
  • 缺点:假设数据线性可分

1.4.3 决策树(Decision Tree)

  • 原理:通过一系列if-else规则进行决策,形成树状结构
  • 类比:就像医生问诊,通过一系列问题最终得出结论
  • 优点:易于理解和解释,可处理非线性关系
  • 缺点:容易过拟合

1.4.4 随机森林(Random Forest)

  • 原理:集成多个决策树,通过投票决定最终结果
  • 类比:三个臭皮匠顶个诸葛亮
  • 优点:准确率高,抗过拟合
  • 缺点:模型复杂度高,可解释性较差

1.4.5 支持向量机(SVM)

  • 原理:寻找最优的超平面来分离不同类别,最大化类别间的间隔
  • 类比:在两个群体之间画一条最宽的"隔离带"
  • 优点:在高维空间表现好,适合小样本
  • 缺点:对大规模数据计算慢

1.4.6 朴素贝叶斯(Naive Bayes)

  • 原理:基于贝叶斯定理,假设特征之间相互独立
  • 类比:根据历史经验(先验概率)和当前证据(特征)来判断
  • 优点:训练速度快,适合文本分类
  • 缺点:特征独立性假设往往不成立

1.4.7 神经网络(Neural Networks)

  • 原理:模拟人脑神经元,通过多层网络学习复杂的非线性关系
  • 类比:像大脑一样通过多层处理来识别模式
  • 优点:表达能力强,适合复杂问题
  • 缺点:需要大量数据和计算资源,黑盒模型

2. 回归问题(Regression)

2.1 什么是回归问题?

定义: 回归问题是预测连续的数值。就像预测一个具体的数量,而不是选择类别。

类比理解:

  • 📈 房价预测:根据房屋面积、位置等特征,预测房价是多少万元
  • 🌡️ 温度预测:根据历史数据预测明天的温度是25.6°C
  • 💰 收入预测:根据教育背景、工作经验预测年薪是多少
  • ⏱️ 时间预测:根据交通状况预测到达目的地需要多少分钟

核心特征:

  • 输出是连续的数值(可以是任意实数)
  • 预测的是数量而不是类别
  • 数值之间可以比较大小和计算差值

2.2 回归问题的类型

线性回归(Linear Regression)

  • 假设因变量和自变量之间存在线性关系
  • 例如:房价 = 面积 × 单价 + 基础价格

非线性回归(Non-linear Regression)

  • 变量之间存在非线性关系
  • 例如:人口增长(指数关系)、药物浓度衰减(对数关系)

多元回归(Multiple Regression)

  • 有多个自变量
  • 例如:房价 = f(面积, 位置, 楼层, 房龄, ...)

2.3 回归问题的应用场景

应用领域具体场景预测目标
房地产房价预测房屋价格(万元)
金融股票价格预测股价、收益率
销售销量预测产品销量(件)
医疗药物剂量用药量(mg)
工程材料强度抗压强度(MPa)
气象天气预报温度、降雨量
交通到达时间预计时间(分钟)
电商用户消费消费金额(元)

2.4 回归问题的主流算法

2.4.1 线性回归(Linear Regression)

  • 原理:找到一条直线(或超平面)使得预测值与真实值的误差最小
  • 类比:在一堆散点中画一条最合适的直线
  • 优点:简单快速,可解释性强
  • 缺点:假设线性关系,对异常值敏感

2.4.2 多项式回归(Polynomial Regression)

  • 原理:将特征进行多项式变换,拟合非线性关系
  • 类比:用曲线而不是直线来拟合数据
  • 优点:可以捕捉非线性关系
  • 缺点:容易过拟合,需要选择合适的多项式次数

2.4.3 岭回归(Ridge Regression)

  • 原理:在线性回归基础上加入L2正则化,防止过拟合
  • 类比:给模型加一个"约束",防止它过于复杂
  • 优点:解决多重共线性问题,防止过拟合
  • 缺点:不进行特征选择

2.4.4 Lasso回归(Lasso Regression)

  • 原理:加入L1正则化,可以自动进行特征选择
  • 类比:不仅约束模型,还能自动去掉不重要的特征
  • 优点:特征选择,适合高维数据
  • 缺点:可能删除重要特征

2.4.5 决策树回归(Decision Tree Regression)

  • 原理:将数据空间划分为多个区域,每个区域预测一个常数值
  • 类比:将数据分成多个"房间",每个房间有一个固定值
  • 优点:可处理非线性关系,易于理解
  • 缺点:容易过拟合

2.4.6 随机森林回归(Random Forest Regression)

  • 原理:集成多个决策树,取平均值作为预测结果
  • 类比:多个专家投票,取平均意见
  • 优点:准确率高,抗过拟合
  • 缺点:模型复杂度高

2.4.7 支持向量回归(SVR)

  • 原理:在回归问题中应用SVM思想,只关注边界附近的样本
  • 类比:只关注"边界"附近的点,忽略远离边界的点
  • 优点:对异常值鲁棒,适合非线性问题
  • 缺点:计算复杂度高

2.4.8 神经网络回归(Neural Network Regression)

  • 原理:使用神经网络学习复杂的非线性映射关系
  • 类比:通过多层网络学习任意复杂的函数
  • 优点:表达能力强,适合复杂问题
  • 缺点:需要大量数据,训练时间长

3. 聚类问题(Clustering)

3.1 什么是聚类问题?

定义: 聚类问题是无监督学习,在没有标签的情况下,将相似的样本自动分组。就像把一堆东西按照相似性自动分类。

类比理解:

  • 🎨 颜色分组:把一堆不同颜色的球自动分成红色组、蓝色组、绿色组
  • 👥 客户分群:根据购买行为将客户自动分成高价值客户、普通客户、潜在客户
  • 📚 文档分类:自动将相似的文档归为一类
  • 🗺️ 地图区域:根据人口密度、经济水平自动划分城市区域

核心特征:

  • 无监督学习:不需要标签,数据本身没有类别信息
  • 自动发现:算法自动发现数据的内在结构
  • 相似性:相似的样本会被分到同一组
  • 未知类别:聚类前不知道有多少个类别

3.2 聚类问题的类型

划分聚类(Partitioning Clustering)

  • 将数据划分成K个互不相交的簇
  • 例如:K-Means算法

层次聚类(Hierarchical Clustering)

  • 构建数据的层次结构(树状图)
  • 例如:凝聚聚类、分裂聚类

密度聚类(Density-based Clustering)

  • 基于样本密度来发现任意形状的簇
  • 例如:DBSCAN算法

基于模型的聚类(Model-based Clustering)

  • 假设数据来自某种概率分布
  • 例如:高斯混合模型(GMM)

3.3 聚类问题的应用场景

应用领域具体场景聚类目标
市场营销客户细分将客户分成不同群体,制定精准营销策略
图像处理图像分割将图像分成不同区域
生物信息学基因分组发现功能相似的基因
推荐系统用户分群发现具有相似偏好的用户群体
异常检测异常识别发现与正常模式不同的异常样本
文档分析主题发现自动发现文档中的主题
社交网络社区发现发现社交网络中的社区结构
城市规划区域划分根据特征划分城市区域

3.4 聚类问题的主流算法

3.4.1 K-Means聚类

  • 原理:随机选择K个中心点,迭代更新中心点位置,将样本分配到最近的中心点
  • 类比:就像有K个"磁铁",样本会被吸引到最近的磁铁
  • 优点:简单高效,适合球形簇
  • 缺点:需要预先指定K值,对初始值敏感,不适合非球形簇

3.4.2 层次聚类(Hierarchical Clustering)

  • 原理:自底向上(凝聚)或自顶向下(分裂)构建聚类树
  • 类比:像生物分类学,从个体到种、属、科、目逐级归类
  • 优点:不需要指定簇数,可以可视化树状图
  • 缺点:计算复杂度高,不适合大规模数据

3.4.3 DBSCAN(Density-Based Spatial Clustering)

  • 原理:基于样本密度,将高密度区域连接成簇,低密度区域视为噪声
  • 类比:像识别城市,人口密集的地方是城市,人口稀少的地方是郊区
  • 优点:可以发现任意形状的簇,自动识别噪声
  • 缺点:对参数敏感,不适合密度差异大的数据

3.4.4 高斯混合模型(GMM)

  • 原理:假设数据来自多个高斯分布的混合,通过EM算法估计参数
  • 类比:认为数据是由多个"高斯钟形"分布叠加产生的
  • 优点:可以给出概率分配,适合重叠的簇
  • 缺点:计算复杂,需要假设数据符合高斯分布

3.4.5 谱聚类(Spectral Clustering)

  • 原理:利用数据的相似性矩阵的特征向量进行聚类
  • 类比:通过数据的"频谱"来发现结构
  • 优点:可以发现非凸形状的簇
  • 缺点:计算复杂度高,需要构造相似性矩阵

3.4.6 Mean Shift聚类

  • 原理:通过不断移动窗口中心点,找到密度最大的区域
  • 类比:像爬山,不断向密度最高的方向移动
  • 优点:不需要指定簇数,可以发现任意形状的簇
  • 缺点:计算复杂度高,对参数敏感

4. 三类问题的对比总结

4.1 核心区别对比

特征分类问题回归问题聚类问题
输出类型离散类别连续数值离散类别(但未知)
学习方式监督学习监督学习无监督学习
训练数据有标签有标签无标签
目标预测类别预测数值发现结构
评估指标准确率、精确率、召回率MSE、RMSE、R²轮廓系数、SSE
类比贴标签预测数量自动分组

4.2 问题选择指南

选择分类问题,当:

  • 你需要预测样本属于哪个预定义的类别
  • 你有带标签的训练数据
  • 输出是离散的、有限的类别

选择回归问题,当:

  • 你需要预测一个连续的数值
  • 你有带标签的训练数据
  • 输出是数量、价格、时间等连续值

选择聚类问题,当:

  • 你没有标签数据
  • 你想发现数据的内在结构
  • 你想探索数据,了解有哪些自然的群体


评论