跳到内容

什么是培训数据?它在机器学习中的应用

2021年7月30日

培训数据

机器学习模型和它们训练的数据一样好。

没有高质量的培训数据,即使是最高效的机器学习算法将无法执行。

在培训过程的早期,就开始需要高质量、准确、完整和相关的数据。只有向算法提供良好的训练数据,它才能轻松地提取特征并找到需要预测的关系。

更精确,质量培训数据是机器学习(和人工智能)最重要的方面。如果您将机器学习(ML)算法引入到正确的数据中,那么您正在为它们的准确性和成功进行设置。

训练数据也称为训练数据集、学习集和训练集。它是每个机器学习模型的重要组成部分,帮助他们做出准确的预测或执行所需的任务。

简单地,培训数据构建机器学习模型。它教导了预期的输出看起来像什么。模型反复分析数据集以深入了解其特性并调整本身以获得更好的性能。

从广义上讲,培训数据可分为两类:标记数据未标记的数据.

标记数据与未标记数据

什么是标记数据?

标记数据是一组数据样本标记为一个或多个有意义的标签。它也被称为注释数据,其标签标识了特定的特征,属性,分类或包含的对象。

例如,水果的图像可以标记为苹果,香蕉,或者葡萄.

标记的训练数据用于监督学习. 它使ML模型能够了解与特定标签相关的特征,这些特征可用于对较新的数据点进行分类。在上面的示例中,这意味着模型可以使用带标签的图像数据来了解特定水果的特征,并使用此信息对新图像进行分组。

数据标签或注释是一种耗时的过程,因为人类需要标记或标记数据点。标记数据收集挑战性且昂贵。与未标记的数据相比,它不容易存储标记的数据。

什么是未标记数据?

正如预期的那样,未标记的数据与标记数据相反。它是原始数据或未使用任何标签标记的数据,用于标识分类、特征或属性。它被用在无监督的机器学习而且ML模型必须在数据中找到模式或相似性以达到结论。

回到前面的示例苹果,香蕉, 和葡萄,在未标记的训练数据中,这些水果的图像不会被标记。模型必须通过观察图像的特征(如颜色和形状)来评估每个图像。

在分析大量图像后,该模型将能够将新图像(新数据)区分为水果类型苹果,香蕉葡萄.当然,该模型不知道特定的水果被称为苹果。相反,它知道识别它所需的特征。

有一些混合模型结合使用有监督和无监督机器学习。

如何在机器学习中使用训练数据

与机器学习算法不同,传统的编程算法遵循一组指令以接受输入数据并提供输出。他们不依赖历史数据,以及他们所做的每一个行动都是基于规则的。这也意味着它们不会随着时间的推移而改善,这不是机器学习的情况。

对于机器学习模型,历史数据是饲料。就像人类依靠过去的经历以做出更好的决定,ML模型看他们的训练数据集与过去的观察到预测。

预测可能包括对图像进行分类,例如图像识别,或在自然语言处理(NLP)中理解句子的上下文。

将数据科学家视为教师,机器学习算法作为学生,以及培训数据集作为所有教科书的集合。

老师的愿望是学生必须在考试和现实世界中表现出色。对于ML算法,测试就像考试。教科书(培训数据集)包含考试中要问的问题类型的几个示例。

提示:查看大数据分析要知道如何收集大数据,结构,清洁和分析。

当然,它不会包含在考试中提出的所有问题的例子,也不会在考试中提出教科书中包含的所有示例。教科书可以通过教他们预期和如何回应来帮助学生做好准备。

没有教科书可以完全完成。随着时间的推移,所提出的问题将改变,因此,需要更改教科书中的信息。在M1算法的情况下,应定期更新训练集以包括新信息。

简而言之,训练数据是一本教科书,帮助数据科学家给ML算法一个预期的想法。虽然训练数据集不包含所有可能的示例,但它将使算法能够进行预测。

培训数据与测试数据与验证数据

培训数据用于模型训练,或者换句话说,是用于拟合模型的数据。相反地测试数据用于评估模型的性能或准确性。这是一个数据样本,用于对训练数据上的最终模型进行无偏评估。

训练数据集是一个初始数据集,用于教导ML模型以识别所需的模式或执行特定任务。测试数据集用于评估培训的效果或模型的准确性。

一旦ML算法在特定数据集上培训并且如果在同一数据集上测试它,则更有可能具有高精度,因为模型知道预期的内容。如果培训数据集包含所有可能的值,则模型可能会在将来遇到,一切都很好。

但事实并非如此。训练数据集永远不可能是全面的,也不能教授模型在现实世界中可能遇到的一切。因此,测试数据集包含看不见数据点,用于评估模型的准确性。

培训数据与验证数据与测试数据

然后是验证数据.这是一个用于训练阶段频繁评估的数据集。虽然模型偶尔会看到这个数据集,但它没有从中。验证集也称为开发集或开发集。它有助于保护模型免受过度装备和磨损。

虽然验证数据与训练数据分开,但数据科学家可能会保留一部分验证数据进行验证。但当然,这会自动意味着在培训期间验证数据被远离。

提示:如果您有有限的数据,则调用了一种技术交叉验证可用于估计模型的性能。该方法涉及将训练数据随机分区为多个子集并保留一个用于评估。

许多人使用术语“测试数据”和“验证数据”互换。两者之间的主要区别在于验证数据用于在培训期间验证模型,而测试集用于在培训完成后测试模型。

验证数据集为模型提供了未经证明数据的第一种品味。但是,并非所有数据科学家都使用验证数据执行初始检查。它们可能会跳过此部分并直接转到测试数据。

什么是人类的循环?

人类在循环中指参与收集和培训数据的人员。

原始数据来自多种来源,包括物联网设备、社交媒体平台、网站和客户反馈。收集后,参与过程的个人将确定数据的关键属性,这些属性是您希望模型预测的结果的良好指标。

通过清理数据、说明缺失值、删除异常值、标记数据点,并将其加载到适当的位置以训练ML算法来准备数据。还将进行几轮质量检查;如您所知,不正确的标签会显著影响模型的准确性。

什么使培训数据好?

高质量的数据转化为精确的机器学习模型。

低质量的数据会显著影响模型的准确性,从而导致严重的财务损失。这几乎就像给学生一本包含错误信息的教科书,并期望他们在考试中取得优异成绩。

以下是质量培训数据的四个主要特征。

相关的

数据需要与手头的任务相关。例如,如果你想训练一个计算机视觉对于自动驾驶车辆,您可能不需要水果和蔬菜的图像。相反,您需要一个包含道路、人行道、行人和车辆照片的培训数据集。

代表

人工智能训练数据必须具有应用程序预测或分类的数据点或特征。当然,数据集永远不可能是绝对的,但它必须至少具有AI应用程序要识别的属性。

例如,如果该模型旨在识别图像中的人脸,则必须向其提供包含来自不同种族的人脸的各种数据。这将减少AI偏见的问题,并且模型不会对特定种族、性别或年龄组产生偏见。

制服

所有数据都应该具有相同的属性,并且必须来自相同的源。

假设您的机器学习项目旨在通过查看客户信息来预测流失率。为此,您将拥有一个客户信息数据库,包括客户名称,地址,订单数,订单频率和其他相关信息。这是历史数据,可以用作培训数据。

数据的一部分不能包含其他信息,如年龄或性别。这将使训练数据不完整,模型不准确。简言之,一致性是高质量培训数据的一个关键方面。

综合的

同样,训练数据永远不可能是绝对的。但它应该是一个代表模型的大多数用例的大型数据集。培训数据必须有足够的示例,使模型能够正确地学习。它必须包含真实世界的数据样本,因为这将有助于训练模型了解预期结果。

如果您正在考虑培训数据作为大量行和列的值,对不起,您错了。它可以是文本,图像,音频或视频等任何数据类型。

什么影响训练数据质量?

人类是高度社交生物,但有一些偏见的偏见,我们可能会被挑选为孩子,需要不断的意识努力摆脱。虽然不利,但这种偏见可能会影响我们的创作,而且机器学习应用程序也不是不同的。

对于ML模型,培训数据是他们读取的唯一书籍。他们的表现或准确性将取决于非常全面,相关和代表的书籍。

已经说,三个因素影响了培训数据的质量:

  1. 人们:培训模型的人对其准确性或性能产生重大影响。如果它们偏见,它将自然会影响它们如何标记数据,并最终是ML模型功能的函数。

  2. 流程:数据标记过程必须有严格的质量控制检查。这将大大提高培训数据的质量。

  3. 工具:不兼容或过时的工具可以使数据质量受到影响。使用强大的数据标签软件可以降低与过程相关的成本和时间。

从哪里获取培训数据

有几种方法可以获取训练数据。根据机器学习项目的规模、预算和可用时间,您对资源的选择可能会有所不同。以下是收集数据的三个主要来源。

开源培训数据

大多数业余ML开发人员和小企业,无法承担数据收集或标签依赖开源培训数据。这是一个简单的选择,因为它已经收集和自由。但是,您将最可能需要调整或重新注释这样的数据集以满足您的培训需求。图像网,kaggle., 和谷歌数据集搜索是开源数据集的一些示例。

互联网和物联网

大多数中型公司使用互联网和物联网设备收集数据。摄像头、传感器和其他智能设备有助于收集原始数据,这些数据将在以后进行清理和注释。与开源数据集不同,此数据收集方法将专门针对您的机器学习项目的需求进行定制。但是,清理、标准化和标记数据是一个耗时且资源密集的过程。

人工训练数据

顾名思义,人工培训数据使用机器学习模型是人为创建的数据。它也被称为合成数据,如果您需要具有特定功能的培训算法的特定功能,这是一个很好的选择。当然,这种方法需要大量的计算资源和充足的时间。

多少训练数据足够?

对于多少训练数据就是足够的训练数据,没有一个明确的答案。这取决于你正在训练的算法——它的预期结果、应用、复杂性和许多其他因素。

假设您想要训练一个文本分类器,该分类器根据术语“猫”和“狗”及其同义词(如“kitty”、“kitten”、“pussycat”、“puppy”或“doggy”)的出现情况对句子进行分类。这可能不需要一个大的数据集,因为只有几个术语需要匹配和排序。

但是,如果这是一个图像分类器,则将图像分类为“猫”和“狗”,训练数据集所需的数据点数将显着拍摄。简而言之,许多因素播放以决定培训数据足够的培训数据。

所需的数据量将根据使用的算法而变化。

就上下文而言,深度学习作为机器学习的一个子集,训练人工神经网络(ANN)需要数百万个数据点。相比之下,机器学习算法只需要数千个数据点。但当然,这是一个牵强的概括,因为所需的数据量因应用程序而异。

模型训练得越多,它就越精确。因此,最好有大量的数据作为训练数据。

垃圾进垃圾出

短语“垃圾输入,垃圾输出”是数据科学中最古老和最常用的短语之一。即使数据生成的速度呈指数级增长,它仍然适用。

关键是向机器学习算法提供高质量、有代表性的数据。这样做可以显著提高模型的准确性。高质量的培训数据对于创建无偏见的机器学习应用程序也至关重要。

你有没有想过拥有人类智能的计算机能做什么?与人类智能相当的计算机被称为通用人工智能,我们尚未结束是否是有史以来最伟大的或最危险的发明。

机器学习软件
机器学习用于救援

从机器学习软件的自动化功能中受益,并向那些单调的任务说再见。

机器学习软件
机器学习用于救援

从机器学习软件的自动化功能中受益,并向那些单调的任务说再见。

千万不要错过一个帖子。

订阅,让您的手指紧握科技脉搏。

通过提交此表格,您同意从G2接收营销通信。