损失函数漫谈

作者: 张黄斌

出处:https://mp.weixin.qq.com/s?__biz=MTEwNTM0ODI0MQ==&mid=2653455932&idx=1&sn=3ff98659ba79a6df780c8cc3aa749fe9

作者: tobynzhang 腾讯PCG算法工程师

| 导语 关于各类损失函数的由来,很多地方,如简书、知乎都有相关文章。 但是很少看到统一成一个体系的阐述,基本都是对一些公式的讲解。 实际上这一系列的损失函数都是有一整套数学体系的,可以互相推导互相转化的。 作者特地做了一些整理,水平有限,方便读者查阅。 水平有限,大佬勿喷,感激不尽~

一、概述

各类有监督算法的本质其实都是在于:用样本观察值去估计随机事件的实际分布。举个例子,推荐算法,其实就是使用观察到的用户行为,如点击行为,去估计用户点击这个随机事件的实际分布。通过估计出来的分布去预测用户下一次点击的概率。

概率分布估计过程就是各类损失函数的来源。对未知事件的分布进行各种假设,从而衍生出了不同的损失函数。

二、同分布评估

要想估计随机事件的实际分布,首先就需要定义两个分布之间的衡量方式,也就是如何定义两个分布之间的差异?这其实是一件非常麻烦的事情,要详细阐述这个问题的解决过程需要查阅很多资料,一篇文章的篇幅是写不完的。

感谢伟大的信息论之父香侬,这些麻烦的事情都可以统一在信息论的框架下,用概率论相关的原理进行推导和研究。所以我们下面直接使用相关的理论进行推演,而这些理论的来源感兴趣的读者可以查阅相关文献。

2.1 KL散度

KL散度又称相对信息熵,可以用来衡量两个分布之间的信息增益。

假设存在分布P和分布Q,分布P相对于分布Q具有的信息增益可以用下列式子表达

此处应注意:

2.2 交叉熵

此处有长得比较帅的读者就注意到了,KL散度和交叉熵公式长得很像, 他们是否有联系呢?

是的,交叉熵(cross-entropy)和 KL 散度联系很密切,以下以离散分布举例,对于连续分布是一样的。

交叉熵为:

KL散度推导:

H§是自信息,对于一个给定的分布而言,这是个常数。所以,在实际使用中,优化交叉熵实际就是优化KL散度。

在实际使用中,我们要衡量的是:对于给定的输入X,预测的分布和实际分布的差异。并希望优化这个差异,是的预测的分布和实际分布尽可能分布,用数学语言表示如下。

公式里的N是N个分类,P(y|X)是离散分布。一般来说,对于一个确定的输入,y(即label)是确定的,也即P(y=target|X) = 1, P(y=other|X) = 0。简单的说, 就是对于正确分类,p(y)=1,否则p(y) = 0。此时就是常见的从最大化似然函数推导出来的形式。

应该注意的是交叉熵里,log前的那一项是不该理解为label的,只是对于互斥的多分类而言,这个值恰巧和label一样而已。举个例子,对于二分类的交叉熵:

这个式子里的y 和(1- y)应该是概率,即在输入X的情况下,标签label=1的概率和label=0的概率。只是恰巧label也是1和0,看起来像是label而已。

三、参数估计

有了衡量两个分布的概率,那问题自然就来了。用什么参数才能使我们你和出来的分布尽可能地接近实际分布呢?这就是参数估计。常见的有矩估计、最大似然估计、贝叶斯估计等。其中和我们今天主旨最接近的是最大似然估计。

最大似然估计和最小KL散度估计是对偶问题(一般意义上,此处不讨论严格的数学约束条件)。以下是证明。

最大似然可以有如下推导。

对于一系列抽样,希望从观察值中推断隐藏的参数,将n个独立样本的概率表示如下:

为使系统达到最优,我们应挑选参数\theta使得P是最大的。对于连乘形式,在运算过程中容易出现数值极值,取其对数进行研究,最后该问题可描述为:

n个独立样本是从实际分布P里抽样出来的,它可以看做是对原始分布的一个抽样近似

同样的,考察最小化KL散度:

这个形式和最大化似然是一样的。最大化似然可以看做是通过抽样的形式,用样本进行最小化KL散度估计。

四、损失函数由来

通过以上的阐述,可以看到,无论是最大化似然还是最小化交叉熵,其实都可以统一在最小化KL散度这个框架下。通过这两种方法推导出来的损失函数,其实都是对原始分布P进行一定的假设的前提下推导出来的。互相之间是可以转化的。

4.1 二分类交叉熵

交叉熵函数如下:

当分类数N=2时,可以这样写:

由于只有两个分类,那么由 P(i=1) + P(i=2) = 1,可以对上式做进一步简化。

模型输出一个在[0,1]之间的值(sigmoid激活)表示第一个分类P(i=1)的概率(就是label=1的概率),则第二个分类P(i=2)的概率(就是label=0的概率)就是 1 - P(i=1)。此处应注意,分类的类别号和label的区别。0-1分布准确的说法是,二分布,第一个分类标签是0,第二个标签是1。

这样就可以简化成

由于两个分类的互斥性,这时只需要一个输出就可以计算出两个分类的概率。

4.2 多分类交叉熵

对于多分类

交叉熵函数如下:

一般模型是同时输出N个结果,经过softmax后作为P(yi|X)的概率。

值得注意的是,当N=2时,这两种操作是等效的:

  1. 输出两个值,经过softmax操作后分别作为y=1和y=0的概率,计算交叉熵;
  2. 输出一个值,经过sigmoid操作后,作为y_{i=1}的概率,y=0的概率通过1-y_{i=1}计算得到,然后用这两个概率值计算交叉熵;

2操作其实是1操作的简化方案。

4.3 最大化均方误差

假设当数据分布服从高斯分布时,最大化似然函数有以下推导过程:

假定数据分布服从

方差一定,需要通过最大化似然去估计这个高斯分布的参数。

条件对数似然如下:

可以看到,最大化似然函数,其实就是最小化均方误差mse

可以看出,这就是我们常见的mse loss的由来。它的准确表示应该是:

当误差分布服从高斯分布时,通过抽样的方法近似的最小化KL散度,获得输出均值的模型参数。

也就是说,以下几种说法是等价的:

  1. mse估计是误差服从连续高斯分布时,最大化似然估计,获得输出均值的模型参数。
  2. mse估计是误差服从连续高斯分布时,以抽样的形式估计的最小化KL散度,获得输出均值的模型参数。
  3. mse估计是误差服从连续高斯分布时,以抽样的形式估计的最大化交叉熵,获得输出均值的模型参数。

值得注意的是,对于表述3。大部分人只使用了离散形式的交叉熵,实际上交叉熵是衡量两个分布之间的信息差的,是可以应用在连续分布中的。

(0)

相关推荐

  • 神经网络如何学习的?

    像下山一样,找到损失函数的最低点. 毫无疑问,神经网络是目前使用的最流行的机器学习技术.所以我认为了解神经网络如何学习是一件非常有意义的事. 为了能够理解神经网络是如何进行学习的,让我们先看看下面的图 ...

  • 深度学习中的概率论与信息论基础

    1.1 自信息 自信息(self-information),由香农提出,是与离散随机变量的值相关的信息量的量度,常用 bit 作为单位.通俗点来说就是一个随机事件以某个概率发生时携带的信息量有多大.可 ...

  • 深入理解线性回归算法(二):正则项的详细分析

    前言 当模型的复杂度达到一定程度时,则模型处于过拟合状态,类似这种意思相信大家看到个很多次了,本文首先讨论了怎么去理解复杂度这一概念,然后回顾贝叶斯思想(原谅我有点啰嗦),并从贝叶斯的角度去理解正则项 ...

  • 使用t-SNE算法进行可视化

    t-SNE全称如下 t-Distributed Stochastic Neighbor Emdedding 是一种非线性的降维算法,常用于将数据降维到二维或者三维空间进行可视化,来观察数据的结构. 在 ...

  • 中药漫谈|赤芍与白芍,不易说清楚的芍药

    芍药是可以媲美牡丹的传统名花,而今天我要说的药用芍药是毛茛科多年生草本植物芍药的根.现代中药学将芍药分为白芍与赤芍,二者功效有别,然而古代并无赤白之分,如<神农本草经>只言芍药,<伤 ...

  • 北京记忆丨北京东安市场旧闻漫谈

    编者按:本文是由张子华 李雅轩 白玉晨 莫文通.常玉奎 刘鸿印 丁德贵 康耀庭八名原东安市场摊贩根据亲身经历所写的回忆资料,写成于1966年2月.现在作者除李雅轩.莫文通.常玉奎外都已逝世.这篇文章是 ...

  • 站桩 | 漫谈蹲猴桩三要

    漫谈就是胡扯 在我练过的桩里,最喜爱蹲猴桩,练起来不至于枯燥,而且有三要六艺作导向,慢慢练慢慢悟,就像青梅煮酒,小火慢烹,有滋有味. 蹲猴桩是戴氏心意六合拳独有的内功修炼桩法,全名叫"先天一 ...

  • 高建忠—血府逐瘀汤漫谈

    拾伍治病之要诀,在明白气血--血府逐淤汤漫谈 (一)明白气血和辨病位用方不读书,不足以临证.每一位临床大家都应该是饱学之士.不临证,也不容易读懂书(中医书). 中医书中很多内容必须经临证体悟才能真正明 ...

  • 张廷模:漫谈附子

    附子和前面祛风湿散寒药当中的川乌或者乌头,是来源于同一种植物.川乌头是种下去的母根,依附在母根旁边长出来的就叫做附子,依附在母根旁边,如子之附母,属于同一种植物.它的整个块根称为附子,但是在商品药材当 ...

  • 中医治疮疡(杏林寻宝·中华传统医药漫谈)

    疮疡是各种致病因素侵袭人体后引起的一切体表化脓感染性疾病的总称,包括急性和慢性两大类,是中医外科疾病中最常见的一大类病证. 中医疮疡的治疗分内治与外治,二者常结合应用.疮疡内治法的总则为消.托.补.初 ...

  • 沈谦益:中医源流漫谈

    录音原文翻译稿: 各位好,今天我把曾经的学习心得和大家一起分享.其中有些内容也是道听途说的,毕竟年代久远,不好考证,希望大家能够谅解.这次主要是讲中医源流方面的内容,分为几块展开. 一.中医的概念 我 ...

  • 漫谈“读方三年便谓天下无病可治;治病三年乃知天下无方可用。”

    被后世尊称为"药王"的唐代名医孙思邈在<大医精诚>里说:"世有愚者,读方三年,便谓天下无病可治:及治病三年,乃知天下无方可用." 有些愚蠢之人,读了 ...

  • 贵州茅台年报漫谈 股王 贵州茅台 年报业绩一如既往的稳定而又符合预期,2020年实现营业收入980亿...

    股王贵州茅台年报业绩一如既往的稳定而又符合预期,2020年实现营业收入980亿元,增长10.29%,净利润467亿元,增长13.33%,毛利率91.42%,净利率47.67%,经营性现金流517亿元 ...