生活充满了艰难的二元选择。
我到底要不要那片比萨饼?我该不该带伞?
虽然一些决定可以通过权衡利弊来正确做出——例如,最好不要吃比萨饼,因为它含有额外的热量——但有些决定可能并不那么容易。
例如,你永远无法完全确定某一天是否会下雨。因此,决定是否携带雨伞是一个艰难的决定。
要做出正确的选择,需要具备预测能力。这种能力非常有利可图,在现实世界中有许多应用,特别是在计算机中。计算机喜欢二进制决策。毕竟,他们讲的是二进制代码。
机器学习算法,更准确地说是逻辑回归算法,可以通过查看历史数据点来帮助预测事件发生的可能性。例如,它可以预测一个人是否会赢得选举,或者今天是否会下雨。
如果你想知道什么回归分析它是一种预测建模技术,用于发现因变量和一个或多个自变量之间的关系。
自变量的一个例子是花在学习上的时间和花在Instagram上的时间。在这种情况下,等级将是因变量。这是因为“花在学习上的时间”和“花在Instagram上的时间”都会影响成绩;一个是积极的,另一个是消极的。
Logistic回归是一种有效的方法分类算法基于一系列自变量,这预测了一个二元结果。在上面的例子中,这意味着预测一门课是通过还是不通过。当然,逻辑回归也可以用来解决回归问题,但它主要用于分类问题。
提示:使用机器学习软件自动化单调的任务并做出数据驱动的决策。
另一个例子是预测一个学生是否会被大学录取。为此,将考虑多个因素,如SAT分数、学生的平均成绩和课外活动的数量。利用以往结果的历史数据,逻辑回归算法将学生分为“接受”或“拒绝”两类。
逻辑回归也称为二项逻辑回归或二元逻辑回归。如果有两类以上的响应变量,则称为多项式logistic回归. 毫不奇怪,逻辑回归是从统计学中借来的,是机器学习和数据科学中最常见的二元分类算法之一。
你知道吗?人工神经网络(ANN)表示可以看作是将大量逻辑回归分类器堆叠在一起。
逻辑回归通过测量因变量(我们想要预测的)和一个或多个自变量(特征)之间的关系来工作。它通过借助其基本逻辑函数估计概率来实现。
理解术语对于正确解读逻辑回归结果至关重要。如果你不熟悉统计学或机器学习,了解特定术语的含义将有助于你快速学习。
逻辑回归是以其核心函数逻辑函数.统计学家最初用它来描述人口增长的特性。S形函数和罗吉特函数是逻辑函数的一些变体。逻辑函数是标准逻辑函数的逆函数。
实际上,它是一条s形曲线,能够取任意实数并将其映射为0到1之间的值,但决不能精确到这些极限。它由以下等式表示:
f(x)=L/1+e^-k(x-x0)
在这个等式中:
如果预测值是相当大的负值,则认为接近于零。另一方面,如果预测值是一个显著的正值,则认为它接近一。
逻辑回归的表示方式类似于使用直线方程定义线性回归。与线性回归的一个显著区别是,输出将是一个二进制值(0或1),而不是一个数值。
下面是逻辑回归方程的一个示例:
Y=e^(b0+b1*x)/(1+e^(b0+b1*x))
在这个等式中:
因变量通常遵循伯努利分布. 系数的值是使用最大似然估计(MLE),梯度下降和随机梯度下降.
与其他分类算法一样,如K近邻A.混淆矩阵用于评估逻辑回归算法的准确性。
你知道吗?逻辑回归是广义线性模型(GLM)大家族的一部分。
就像评估分类器的性能一样,了解模型为何以特定方式对观察结果进行分类也同样重要。换句话说,我们需要分类器的决定是可解释的。
虽然可解释性不容易定义,但其主要目的是让人们知道算法为何做出特定的决定。在逻辑回归的情况下,它可以与统计检验相结合,如瓦尔德试验或者似然比检验为了解释性。
Logistic回归用于预测分类因变量。换句话说,当预测是绝对的,例如,是或否,真或假,0或1时使用它。逻辑回归的预测概率或输出可以是其中之一,并且没有中间地带。
对于预测变量,它们可以是以下任何类别的一部分:
逻辑回归分析对于预测事件发生的可能性很有价值。它有助于确定任意两个类之间的概率。
简而言之,通过查看历史数据,逻辑回归可以预测:
本质上,逻辑回归有助于解决问题可能性和分类问题。换句话说,你只能从逻辑回归中得到分类和概率结果。
例如,它可以用来确定某件事是“真或假”的概率,也可以用来决定两种结果,如“是或否”。
逻辑回归模型还可以帮助对数据进行分类,以进行提取、转换和加载(ETL)操作。如果观察数少于特征数,则不应使用逻辑回归。否则,可能会导致过度装配。
逻辑回归预测一个或多个自变量的分类变量,线性回归预测连续变量。换句话说,逻辑回归提供恒定的输出,而线性回归提供连续的输出。
由于线性回归中的结果是连续的,因此结果的可能值是无限的。但对于逻辑回归,可能结果值的数量是有限的。
在线性回归中,因变量和自变量应该是线性相关的。在逻辑回归的情况下,自变量应与对数几率(对数(p/(1-p))。
提示:逻辑回归可以用任何用于数据分析的编程语言实现,如R、Python、Java和MATLAB。
线性回归是用普通最小二乘法估计的,而逻辑回归是用最大似然估计法估计的。
logistic回归和线性回归都是有效的监督机器学习算法和回归分析的两种主要类型。逻辑回归用于解决分类问题,线性回归主要用于回归问题。
回到学习时间的例子,线性回归和逻辑回归可以预测不同的事情。逻辑回归可以帮助预测学生是否通过考试。相比之下,线性回归可以预测学生的分数。
在使用logistic回归时,我们做了一些假设。这些假设是正确使用logistic回归进行预测和解决分类问题所不可或缺的。
以下是逻辑回归的主要假设:
逻辑回归可以根据结果的数量或因变量的类别分为不同的类型。
当我们想到逻辑回归时,我们很可能想到二元逻辑回归。在本文的大部分内容中,当我们提到逻辑回归时,我们指的是二元逻辑回归。
以下是逻辑回归的三种主要类型。
二元逻辑回归是一种统计方法,用于预测因变量和自变量之间的关系。在这种方法中,因变量是一个二进制变量,这意味着它只能取两个值(是或否、真或假、成功或失败、0或1)。
二元逻辑回归的一个简单示例是确定电子邮件是否为垃圾邮件。
多项式logistic回归是二元逻辑回归的推广。它允许两类以上的结果或因变量。
它类似于二元逻辑回归,但可能有两种以上的结果。这意味着结果变量可以有三个或更多可能的变量无序类型–没有数量意义的类型。例如,因变量可以表示“A型”、“B型”或“C型”。
与二元logistic回归类似,多项式logistic回归也使用最大似然估计来确定概率。
例如,多项式逻辑回归可以用来研究一个人的教育和职业选择之间的关系。在这里,职业选择将是因变量,由不同职业类别组成。
序数逻辑斯蒂回归,也称为顺序回归,是二元逻辑回归的另一个扩展。它是用来预测因变量的三个或更多可能有序类型–具有数量意义的类型。例如,因变量可能表示“强烈不同意”、“不同意”、“同意”或“强烈同意”。
它可用于确定工作绩效(差、一般或优秀)和工作满意度(不满意、满意或高度满意)。
logistic回归模型的许多优点和缺点都适用于线性回归模型。logistic回归模型最显著的优点之一是它不仅可以分类,还可以给出概率。
以下是一些优势逻辑回归算法的改进。
然而,逻辑回归有许多缺点。如果有一个特性可以将两个类完全分开,那么模型就不能再训练了。这叫做完全分离.
这主要是因为该特性的权重不会收敛,因为最佳权重是无限的。然而,在大多数情况下,完全分离可以通过定义权重的先验概率分布或引入权重惩罚来解决。
以下是一些缺点逻辑回归算法的应用:
许多人可能会争辩说,人类不像计算机那样生活在二进制世界中。当然,如果给你一片比萨饼和一个汉堡包,你可以同时吃两种,而不必只选择一种。但如果你仔细看一看,一个二元决策(字面上)刻在每件事上。你可以选择吃或不吃比萨饼;没有中间立场。
如果数据量有限,评估预测模型的性能可能会很棘手。为此,您可以使用一种称为交叉验证,这涉及将可用数据划分为训练集和测试集。
千万不要错过一个帖子。
订阅,让您的手指紧握科技脉搏。