介绍
机器学习( Machine Learning )是一种人工智能( AI )领域的技术和方法,它使计算机系统能够从数据中学习并自动改进。机器学习的目标是让计算机系统能够根据给定的数据和经验,自动识别模式并做出预测或做出决策。通过机器学习,计算机系统可以不断地从经验中学习,逐步改进其性能。
在本文章中,我们将介绍机器学习的广泛应用、监督学习和无监督学习的常见机器学习方法,以及机器学习中的常见算法方法,包括 K 最近邻算法、决策树算法和深度学习。此外,我们将讨论机器学习算法造成的偏见,并考虑在构建算法时可以记住什么来防止这些偏见。
应用
今天的任何技术都受益于机器学习,它可以让计算机系统通过学习数据来自动改进性能,机器学习应用非常广。以下是机器学习在不同领域的应用:
-
自然语言处理:机器学习可以帮助计算机理解和处理自然语言。例如,机器翻译、语音识别、情感分析等都是基于机器学习的。
-
计算机视觉:机器学习可以帮助计算机理解和分析图像和视频。例如,人脸识别、物体检测、图像分类等都是基于机器学习的。
-
金融服务:机器学习可以帮助金融机构更好地预测市场走势、风险评估和欺诈检测。例如,信用评分、投资组合优化和反洗钱等都是基于机器学习的。
-
健康医疗:机器学习可以帮助医疗机构更好地诊断疾病、制定治疗方案和预测患者风险。例如,癌症诊断、药物发现和健康监测等都是基于机器学习的。
-
智能交通:机器学习可以帮助交通管理部门更好地规划路线、优化交通流量和预测拥堵。例如,智能导航、自动驾驶和交通信号控制等都是基于机器学习的。
总之,机器学习在许多领域都有广泛的应用,可以帮助我们更好地理解和利用数据,从而提高效率、降低成本并改善生活质量。
机器学习方法
在机器学习中,任务通常分为几大类。这些类别基于如何接收学习或如何将学习反馈提供给开发的系统。
两种最广泛采用的机器学习方法是监督学习以及无监督学习。监督学习根据人类标记的示例输入和输出数据训练算法。无监督学习为算法提供没有标记的数据,以使其能够在其输入中找到结构数据。
监督学习
监督学习是一种机器学习方法,其目的是使用有标签的数据集来训练模型以进行预测。在监督学习中,模型接收输入数据和对应的输出标签,并试图学习输入和输出之间的关系。这个过程涉及到将输入数据映射到输出标签的过程,以便在未来的数据中对新的输入进行预测。常见的监督学习方法包括决策树、支持向量机、神经网络和线性回归等。
例如,通过监督学习,可以为算法提供标记为 fish 的鲨鱼图像和标记为 water 的海洋图像的数据。通过对这些数据进行训练,监督学习算法以后能够将未标记的鲨鱼图像识别为 fish,将未标记的海洋图像识别为 water。监督学习的一个常见用例是使用历史数据来预测统计上可能发生的未来事件。它可以使用历史股市信息来预测即将到来的波动,或用于过滤垃圾邮件。
无监督学习
无监督学习是一种机器学习方法,其目的是从未标记的数据中发现模式和结构。与监督学习不同,无监督学习中的数据集不包含任何标签或类别信息,而是让算法自行发现数据中的结构和规律。在没有被告知“正确”答案的情况下,无监督学习方法可以查看更广泛且看似无关的复杂数据,以便以可能更有意义的方式组织它。
无监督学习算法的常见应用包括聚类、降维和异常检测等。举例异常检测,包括欺诈性信用卡购买,以及推荐接下来要购买的产品的推荐系统。在无监督学习中,未标记的狗照片可以用作算法的输入数据,以查找相似度并将狗照片一起分类。
无监督学习在许多领域都有广泛的应用,例如自然语言处理、图像处理、金融分析等。它可以帮助我们发现数据中的隐藏模式和结构,从而更好地理解和利用数据。
常见算法方法
作为一个领域,机器学习与计算统计密切相关,因此拥有统计学背景知识有助于理解和利用机器学习算法。
对于那些可能没有研究过统计学的人,首先定义相关性和回归可能会有所帮助,因为它们是研究定量变量之间关系的常用技术。相关性是未指定为相关或独立的两个变量之间关联的度量。基本级别的回归用于检查一个因变量和一个自变量之间的关系。因为当自变量已知时回归统计可用于预测因变量,所以回归具有预测能力。
机器学习的方法正在不断发展,我们将介绍目前机器学习中经常使用的一些常见算法方法:K最近邻算法、决策树算法、深度学习。
K最近邻算法
K最近邻算法(K-Nearest Neighbor,KNN)是一种基于实例的无监督学习算法,用于分类和回归任务。它的工作原理是基于距离度量来对未知样本进行分类或预测。KNN算法的基本思想是,通过测量不同样本之间的距离,将最相似的K个样本(最近邻)找到。然后,通过这些邻居的标签或值,预测未知样本的类别或值。
在此方法中,输出是类成员资格。这会将一个新对象分配给它的 K 个最近邻居中最常见的类。在 K = 1 的情况下,对象被分配到单个最近邻居的类。
让我们看一个 K最近邻算法的例子。在下图中,有蓝色菱形对象和橙色星形对象。它们属于两个不同的等级:钻石等级和星级等级。
当一个新对象被添加到空间中时——在本例中是一颗绿色的心——我们希望机器学习算法将心脏分类到某个类别。
当我们选择 K = 3 时,算法将找到绿心的三个最近邻居,以便将其分类为钻石类或星形类。
在我们的图表中,绿心的三个最近邻居是一颗钻石和两颗星。因此,该算法会将心脏分类为星级。
在最基本的机器学习算法中,K最近邻算法被认为是一种“惰性学习”,因为在对系统进行查询之前不会发生超出训练数据的泛化。
决策树算法
决策树算法是一种基于树结构的监督学习算法,用于解决分类和回归问题。它通过对输入数据进行递归分割,将数据集划分成更小、更简单的子集,直到每个子集都只包含同一类别或达到预定义的停止条件。决策树算法的优点包括易于理解和解释,可以处理非线性关系和缺失数据,并且能够处理离散和连续特征。决策树也可以用于特征选择和数据可视化等领域。但是,决策树的缺点是容易过拟合,并且对噪声和异常值敏感。
让我们看一个可以决定某人是否应该去钓鱼的各种条件的例子。这包括天气条件以及大气压力条件。
在上面的简化决策树中,通过将示例从树中排序到适当的叶节点来对示例进行分类。然后返回与特定叶子关联的分类,在本例中为 Yes 或 No。树根据是否适合钓鱼对一天的情况进行分类。
一个真正的分类树数据集将具有比上面概述的更多的特征,但关系应该很容易确定。使用决策树算法时,需要做出多项决定,包括选择哪些特征、使用什么条件进行拆分,以及了解决策树何时达到明确的结局
深度学习
深度学习是一种机器学习方法,通过构建多层神经网络来学习和提取数据的高层次抽象特征,从而实现对大规模数据的建模和分析。深度学习的核心思想是通过多层非线性变换逐步提取数据的高阶特征,并将这些特征作为输入进行分类、回归、聚类、语音识别、图像处理等任务。深度学习已经在许多领域取得了显著的成功,如计算机视觉、自然语言处理、语音识别、医学图像分析、推荐系统和自动驾驶等。深度学习的优点包括自动学习高阶特征、处理高维数据和具有强大的表达能力等。但是,深度学习模型也面临着训练时间长、需要大量的训练数据和超参数调整等问题。
人类偏见
尽管数据和计算分析可能会让我们认为我们正在接收客观信息,但事实并非如此;基于数据并不意味着机器学习输出是中立的。人为偏见会影响数据的收集和组织方式,并最终影响决定机器学习如何与数据交互的算法。
例如,如果人们提供“鱼”的图像作为数据来训练算法,而这些人绝大多数选择金鱼的图像,那么计算机可能不会将鲨鱼归类为鱼。这会造成对鲨鱼作为鱼类的偏见,而鲨鱼将不会被视为鱼类。当使用科学家的历史照片作为训练数据时,计算机可能无法正确分类同时也是有色人种或女性的科学家。事实上,最近的同行评审研究表明,人工智能和机器学习程序表现出类似人类的偏见,包括种族和性别偏见。
随着机器学习在商业中的应用越来越广泛,未被发现的偏见可能会导致系统性问题长期存在。
由于人为偏见会对他人产生负面影响,因此意识到这一点并努力尽可能消除它是极其重要的。实现这一目标的一种方法是确保有不同的人从事一个项目,并且不同的人正在测试和审查它。其他人则呼吁监管第三方监督和审计算法,构建可以检测偏差的替代系统,并将伦理审查作为数据科学项目规划的一部分。提高对偏见的认识,注意我们自己无意识的偏见,并在我们的机器学习项目和管道中构建公平,可以努力消除这一领域的偏见。
结论
本文章回顾了机器学习的一些应用、该领域使用的机器学习方法和常见算法方法,还涵盖了在算法中无意识偏见方面需要牢记的一些事项。由于机器学习是一个不断创新的领域,因此请务必牢记算法和方法将不断变化。
评论 (0)