即使对于逻辑、数学或编程领域之外的人来说,分类也是直观的。你有一组 N 个 对象,它们有 X 个类别(例如,帽子、狗、裤子等)。将这些对象移到各自的类别就是分类。 ,机器学习模型仍在进行预测。它们永远无法 100% 确定所提供对象的本质。
回归稍微复杂一些,需要一些数学知 巴西电话号码数据 识来解释。假设你想测量员工年龄(X)和工资(Y)之间的相关性。收集所需的数据意味着你将得到一组值对(X:Y)。如果是简单的线性回归,它可以表示为:
是未知系数。基于回归的机器学习模型将找到这些。
一个简单的解决方案是将这些数据点绘制在图表上。通常,它们看起来像这样:
来源: JavaTpoint
找到这些系数通常并不那么简单,因为当引入更多数据时它们会发生变化。但是,有一些奇特的统计工具可用于最大限度地提高准确性:均方误差 (MSE) 和梯度下降。简化它(大大简化),我们基本上选择两个随机系数并画一条线。然后分别计算每个点及其到线的距离平方。之后,重复该过程多次以最小化点和线之间的平均距离(也称为成本函数)。
我不会深入讨论统计数据。重要的是,经过充分的训练后,机器学习模型将能够仅根据一组变量提供预测。继续这个例子,它将能够仅根据一组年份来预测工资(反之亦然)。
这两个是机器学习模型中最受欢迎的选项。当然,它们可能要复杂得多,并且需要通过几套工具来解决问题。我在这里避免提及其中一些(例如,聚类和降维),因为它们是不太受欢迎的选项。