跳转到内容

什么是逻辑回归?学习何时使用它

2021年7月29日

逻辑回归

生活充满了艰难的二元选择。

我到底要不要那片比萨饼?我该不该带伞?

虽然一些决定可以通过权衡利弊来正确做出——例如,最好不要吃比萨饼,因为它含有额外的热量——但有些决定可能并不那么容易。

例如,你永远无法完全确定某一天是否会下雨。因此,决定是否携带雨伞是一个艰难的决定。

要做出正确的选择,需要具备预测能力。这种能力非常有利可图,在现实世界中有许多应用,特别是在计算机中。计算机喜欢二进制决策。毕竟,他们讲的是二进制代码。

机器学习算法,更准确地说是逻辑回归算法,可以通过查看历史数据点来帮助预测事件发生的可能性。例如,它可以预测一个人是否会赢得选举,或者今天是否会下雨。

如果你想知道什么回归分析它是一种预测建模技术,用于发现因变量和一个或多个自变量之间的关系。

自变量的一个例子是花在学习上的时间和花在Instagram上的时间。在这种情况下,等级将是因变量。这是因为“花在学习上的时间”和“花在Instagram上的时间”都会影响成绩;一个是积极的,另一个是消极的。

Logistic回归是一种有效的方法分类算法基于一系列自变量,这预测了一个二元结果。在上面的例子中,这意味着预测一门课是通过还是不通过。当然,逻辑回归也可以用来解决回归问题,但它主要用于分类问题。

提示:使用机器学习软件自动化单调的任务并做出数据驱动的决策。

另一个例子是预测一个学生是否会被大学录取。为此,将考虑多个因素,如SAT分数、学生的平均成绩和课外活动的数量。利用以往结果的历史数据,逻辑回归算法将学生分为“接受”或“拒绝”两类。

逻辑回归也称为二项逻辑回归或二元逻辑回归。如果有两类以上的响应变量,则称为多项式logistic回归. 毫不奇怪,逻辑回归是从统计学中借来的,是机器学习和数据科学中最常见的二元分类算法之一。

你知道吗?人工神经网络(ANN)表示可以看作是将大量逻辑回归分类器堆叠在一起。

逻辑回归通过测量因变量(我们想要预测的)和一个或多个自变量(特征)之间的关系来工作。它通过借助其基本逻辑函数估计概率来实现。

logistic回归中的关键术语

理解术语对于正确解读逻辑回归结果至关重要。如果你不熟悉统计学或机器学习,了解特定术语的含义将有助于你快速学习。

以下是回归分析中使用的一些常用术语:
  • 变量:任何可以测量或计算的数字、特征或数量。例如年龄、速度、性别和收入。
  • 系数:一个数字,通常是一个整数,乘以它所伴随的变量。例如,在12y中,数字12是系数。
  • 经验:指数的缩写形式。
  • 异常值:与其他显著不同的数据点。
  • 估计员:产生参数估计值的算法或公式。
  • 卡方检验:也被称为卡方检验,它是一种假设检验方法,用于检查数据是否符合预期。
  • 标准错误:统计样本总体的近似标准偏差。
  • 正规化:通过在训练数据集上(适当地)拟合函数来减少误差和过度拟合的一种方法。
  • 多重共线性:两个或多个自变量之间的相互关系。
  • 拟合优度:描述统计模型与一组观测值的拟合程度。
  • 优势比:两个事件之间关联强度的度量。
  • 对数似然函数:评估统计模型的拟合优度。
  • Hosmer–Lemeshow试验:评估观察到的事件率是否与预期事件率匹配的测试。

什么是物流功能?

逻辑回归是以其核心函数逻辑函数.统计学家最初用它来描述人口增长的特性。S形函数罗吉特函数是逻辑函数的一些变体。逻辑函数是标准逻辑函数的逆函数。

逻辑函数

实际上,它是一条s形曲线,能够取任意实数并将其映射为0到1之间的值,但决不能精确到这些极限。它由以下等式表示:

f(x)=L/1+e^-k(x-x0)

在这个等式中:

  • f(X)是函数的输出
  • L是曲线的最大值
  • E是自然对数的底
  • K是曲线的陡度
  • x这是真实的数字吗
  • x0是S形中点的x值

如果预测值是相当大的负值,则认为接近于零。另一方面,如果预测值是一个显著的正值,则认为它接近一。

逻辑回归的表示方式类似于使用直线方程定义线性回归。与线性回归的一个显著区别是,输出将是一个二进制值(0或1),而不是一个数值。

下面是逻辑回归方程的一个示例:

Y=e^(b0+b1*x)/(1+e^(b0+b1*x))

在这个等式中:

  • Y是预测值(或输出)
  • b0是偏差(或截距项)
  • b1是输入的系数
  • x是预测变量(或输入)

因变量通常遵循伯努利分布. 系数的值是使用最大似然估计(MLE),梯度下降随机梯度下降.

与其他分类算法一样,如K近邻A.混淆矩阵用于评估逻辑回归算法的准确性。

你知道吗?逻辑回归是广义线性模型(GLM)大家族的一部分。

就像评估分类器的性能一样,了解模型为何以特定方式对观察结果进行分类也同样重要。换句话说,我们需要分类器的决定是可解释的。

虽然可解释性不容易定义,但其主要目的是让人们知道算法为何做出特定的决定。在逻辑回归的情况下,它可以与统计检验相结合,如瓦尔德试验或者似然比检验为了解释性。

何时使用逻辑回归

Logistic回归用于预测分类因变量。换句话说,当预测是绝对的,例如,是或否,真或假,0或1时使用它。逻辑回归的预测概率或输出可以是其中之一,并且没有中间地带。

对于预测变量,它们可以是以下任何类别的一部分:

  • 连续数据:可以在无限范围内测量的数据。它可以取两个数字之间的任意值。例如,以磅为单位的重量或以华氏为单位的温度。
  • 离散、标称数据:符合命名类别的数据。一个简单的例子是头发颜色:金色、黑色或棕色。
  • 离散有序数据:符合一定规模的某种形式的顺序的数据。举例来说,你对产品或服务的满意度从1到5分不等。

逻辑回归分析对于预测事件发生的可能性很有价值。它有助于确定任意两个类之间的概率。

简而言之,通过查看历史数据,逻辑回归可以预测:

  • 电子邮件是垃圾邮件
  • 今天要下雨
  • 肿瘤是致命的
  • 个人将购买一辆汽车
  • 网上交易是欺诈性的
  • 参赛者将在选举中获胜
  • 一群用户将购买一种产品
  • 保单持有人将在保单期限到期前到期
  • 促销电子邮件接收者是响应者或非响应者

本质上,逻辑回归有助于解决问题可能性分类问题。换句话说,你只能从逻辑回归中得到分类和概率结果。

例如,它可以用来确定某件事是“真或假”的概率,也可以用来决定两种结果,如“是或否”。

逻辑回归模型还可以帮助对数据进行分类,以进行提取、转换和加载(ETL)操作。如果观察数少于特征数,则不应使用逻辑回归。否则,可能会导致过度装配。

线性回归与逻辑回归

逻辑回归预测一个或多个自变量的分类变量,线性回归预测连续变量。换句话说,逻辑回归提供恒定的输出,而线性回归提供连续的输出。

由于线性回归中的结果是连续的,因此结果的可能值是无限的。但对于逻辑回归,可能结果值的数量是有限的。

在线性回归中,因变量和自变量应该是线性相关的。在逻辑回归的情况下,自变量应与对数几率(对数(p/(1-p))。

提示:逻辑回归可以用任何用于数据分析的编程语言实现,如R、Python、Java和MATLAB。

线性回归是用普通最小二乘法估计的,而逻辑回归是用最大似然估计法估计的。

logistic回归和线性回归都是有效的监督机器学习算法和回归分析的两种主要类型。逻辑回归用于解决分类问题,线性回归主要用于回归问题。

回到学习时间的例子,线性回归和逻辑回归可以预测不同的事情。逻辑回归可以帮助预测学生是否通过考试。相比之下,线性回归可以预测学生的分数。

逻辑回归假设

在使用logistic回归时,我们做了一些假设。这些假设是正确使用logistic回归进行预测和解决分类问题所不可或缺的。

以下是逻辑回归的主要假设:

  • 几乎没有多重共线性在自变量之间。
  • 自变量为与对数赔率线性相关(对数(p/(1-p))。
  • 因变量为二分变量或二元变量; 它可以分为两类。这只适用于二元逻辑回归,后面将讨论。
  • 没有无意义的变量因为它们可能会导致错误。
  • 数据样本量较大,这是积分,以获得更好的结果。
  • 没有异常值.

logistic回归的类型

逻辑回归可以根据结果的数量或因变量的类别分为不同的类型。

当我们想到逻辑回归时,我们很可能想到二元逻辑回归。在本文的大部分内容中,当我们提到逻辑回归时,我们指的是二元逻辑回归。

以下是逻辑回归的三种主要类型。

二元逻辑回归

二元逻辑回归是一种统计方法,用于预测因变量和自变量之间的关系。在这种方法中,因变量是一个二进制变量,这意味着它只能取两个值(是或否、真或假、成功或失败、0或1)。

二元逻辑回归的一个简单示例是确定电子邮件是否为垃圾邮件。

多项式logistic回归

多项式logistic回归是二元逻辑回归的推广。它允许两类以上的结果或因变量。

它类似于二元逻辑回归,但可能有两种以上的结果。这意味着结果变量可以有三个或更多可能的变量无序类型–没有数量意义的类型。例如,因变量可以表示“A型”、“B型”或“C型”。

与二元logistic回归类似,多项式logistic回归也使用最大似然估计来确定概率。

例如,多项式逻辑回归可以用来研究一个人的教育和职业选择之间的关系。在这里,职业选择将是因变量,由不同职业类别组成。

序数逻辑斯蒂回归

序数逻辑斯蒂回归,也称为顺序回归,是二元逻辑回归的另一个扩展。它是用来预测因变量的三个或更多可能有序类型–具有数量意义的类型。例如,因变量可能表示“强烈不同意”、“不同意”、“同意”或“强烈同意”。

它可用于确定工作绩效(差、一般或优秀)和工作满意度(不满意、满意或高度满意)。

logistic回归的优缺点

logistic回归模型的许多优点和缺点都适用于线性回归模型。logistic回归模型最显著的优点之一是它不仅可以分类,还可以给出概率。

以下是一些优势逻辑回归算法的改进。

  • 易于理解,易于实施,培训效率高
  • 当数据集是线性可分离的时,性能良好
  • 对于较小的数据集具有良好的准确性
  • 没有对类的分布做任何假设
  • 它提供了关联的方向(正面或负面)
  • 用于查找要素之间的关系
  • 提供校准良好的概率
  • 在低维数据集中不太容易过度拟合
  • 可以扩展到多类分类

然而,逻辑回归有许多缺点。如果有一个特性可以将两个类完全分开,那么模型就不能再训练了。这叫做完全分离.

这主要是因为该特性的权重不会收敛,因为最佳权重是无限的。然而,在大多数情况下,完全分离可以通过定义权重的先验概率分布或引入权重惩罚来解决。

以下是一些缺点逻辑回归算法的应用:

  • 构造线性边界
  • 如果特征数量大于观测数量,则可能导致过度拟合
  • 预测因子应具有平均或无多重共线性
  • 获取复杂关系的挑战。像神经网络这样的算法更合适,功能更强大
  • 只能用于预测离散函数
  • 无法解决非线性问题
  • 对异常值敏感

当生活给你选择时,想想逻辑回归

许多人可能会争辩说,人类不像计算机那样生活在二进制世界中。当然,如果给你一片比萨饼和一个汉堡包,你可以同时吃两种,而不必只选择一种。但如果你仔细看一看,一个二元决策(字面上)刻在每件事上。你可以选择吃或不吃比萨饼;没有中间立场。

如果数据量有限,评估预测模型的性能可能会很棘手。为此,您可以使用一种称为交叉验证,这涉及将可用数据划分为训练集和测试集。

机器学习
了解机器如何学习

了解更多关于机器学习的信息,这是人工智能的一个分支,它帮助创建可以从经验中学习和改进的应用程序。

机器学习
了解机器如何学习

了解更多关于机器学习的信息,这是人工智能的一个分支,它帮助创建可以从经验中学习和改进的应用程序。

千万不要错过一个帖子。

订阅,让您的手指紧握科技脉搏。

提交此表格即表示您同意接收G2的营销沟通。