Machine Learning_机器学习笔记📒

reference:《机器学习》by. 吴恩达|《统计学习方法》by.李航|《白板推导》机器学习面经

Part 1 统计学习方法概论

  • 数据集(Dataset):在机器学习中,数据集是一个包含多个样本的集合。每个样本通常由一组特征(Features)和可能的标签(Labels)组成。数据集通常被分为训练集、验证集和测试集,以便在不同的阶段使用。
  • 训练集(Training Set):训练集是数据集的一部分,用于训练机器学习模型。在监督学习中,训练集包含输入特征和对应的输出标签。模型通过学习训练集中特征和标签之间的关系,来理解和学习如何进行预测。
  • 验证集(Validation Set):验证集是数据集的一部分,用于在模型训练过程中进行性能评估和超参数调整。通过观察模型在验证集上的表现,我们可以调整模型的参数,如学习率、树的深度等,以防止过拟合并提高模型的泛化能力。
  • 测试集(Test Set):测试集也是数据集的一部分,但它在整个训练过程中都不被模型看到。测试集的主要目的是在模型训练完成后,提供一个公正无偏的性能评估。因为测试集数据在训练过程中未被使用,所以它可以帮助我们理解模型在未见过的新数据上的表现如何。

Machine learning algorithms: supervised learning, unsupervised learning, reinforcement learning, recommender systems……

1️⃣监督学习(supervised learning)

监督学习是机器学习的一种类型,其中模型通过学习输入数据(特征)和对应的输出数据(标签)之间的关系进行训练。在训练过程中,模型尝试找到特征和标签之间的映射函数。一旦模型被训练,它就可以用于预测新的、未见过的数据的标签。
监督学习主要有两种类型:分类(classification)和回归(regression)。还有一种类型是标注(tagging)。分类问题的目标是预测数据点的类别,而回归问题的目标是预测一个连续的数值。
例如,你可能使用监督学习来训练一个模型,该模型基于一张图片(输入特征)预测一个手势(输出标签)。这将是一个分类问题。或者,你可能使用监督学习来训练一个模型,该模型基于一系列传感器读数(输入特征)预测一个物体的质量(输出标签)。

2️⃣无监督学习(unsupervised learning)

无监督学习是机器学习的一种类型,其中模型只有输入数据(特征),而没有对应的输出数据(标签)。在训练过程中,模型尝试从数据中发现一些内在的结构或模式。 无监督学习主要有两种类型:聚类(clustering)和降维(dimentionality reduction)。聚类问题的目标是将数据点分组,使得同一组内的数据点彼此相似,而不同组的数据点彼此不同。降维问题的目标是减少数据的维度,同时尽可能保留数据的重要信息。 例如,你可能使用无监督学习来训练一个模型,该模型基于一系列传感器读数(输入特征)将物体分组。这将是一个聚类问题。或者,你可能使用无监督学习来训练一个模型,该模型基于一张高维度的手势图片(输入特征)生成一个低维度的特征表示。

滚动至顶部