凸函数和拐点
凸函数(Convex function)和拐点(Inflection point)。 此部分为参考 华东师范大学《数学分析上册》。以下内容为学习中的重点总结。
凸函数一般用来证明不等式;注意左右导数和凸函数定义公式的联系;凸函数的性质比较好,在机器学习中是理想的代价函数,因为好求最小值点;注意拐点中的鞍点(是一阶导数等于0的点,即拐点中的驻点或稳定点)。
凸函数
定义1 设$f$为定义在区间$I$上的函数,若对$I$上的任意两点$x_1, x_2$和任意实数$\lambda\in(0,1)$总有
$$
f(\lambda x_1 + (1-\lambda) x_2)\leq \lambda f(x_1) + (1 - \lambda)f(x_2),
$$
则称$f$为$I$上的凸函数。反之,如果总有
$$
f(\lambda x_1 + (1 - \lambda) x_2)\geq \lambda f(x_1) + (1 - \lambda) f(x_2),
$$
则称$f$为$I$上的凹函数。
另外,
- 如果上面的不等式为严格不等式,那么称严格凸函数和严格凹函数。
- 如果$-f$为区间$I$上的凹函数,那么$f$为区间$I$上的凸函数。
引理 $f$为$I$上的凸函数的充要条件是对于$I$上的任意三点$x_1 < x_2 < x_3$,总有
$$
\frac{f(x_2) - f(x_1)}{x_2 - x_1} \leq \frac{f(x_3) - f(x_2)}{x_3 - x_2}.
$$
同样地,$f$为$I$上的凸函数的充要条件是对于$I$上的任意三点$x_1 < x_2 < x_3$,有
$$
\frac{f(x_2) - f(x_1)}{x_2 - x_1} \leq \frac{f(x_3) - f(x_1)}{x_3 - x_1} \leq \frac{f(x_3) - f(x_2)}{x_3 - x_2}.
$$
注意,这里把$x_2, x_3$看着一个变量时,函数$\frac{f(x_3) - f(x_1)}{x_3 - x_1}$是一个增函数,可以利用单调有界定理,取极限
定理6.14 设$f$为区间$I$上的可导函数,则下述论断互相等价:
$f$为$I$上的增函数;
$f^{\prime}$为$I$上的增函数;
对$I$上的任意两点$x_1, x_2$有
$$
f(x_2) \geq f(x_1) + f^{\prime}(x_1)(x_2 - x_1).
$$
论断3的几何意义就是说曲线$y=f(x)$总是在它的任一切线上方。
定理 6.15 设$f$为区间$I$上的二阶可导函数,则在$I$上$f$为凸函数(凹函数)的充要条件是
$$
f^{(2)}(x) \geq 0 \ (f^{(2)}(x) \leq 0), \ x \in I.
$$
定理 若函数$f$为定义在开区间$(a, b)$上的可导的凸函数(凹函数),则$x_0 \in (a, b)$为$f$的极小值点(极大值点)的充要条件是$x_0$为$f$的稳定点,即$f^{\prime}(x_0) = 0$.
定理 设函数$f(x)$为开区间$(a, b)$上的凸函数,不恒为常数,则$f(x)$不取最大值。
凸函数的最大值只能在端点处取得。即,若函数$f(x)$是闭区间$[a, b]$上的凸的连续函数,那么
$$
f(x) \leq \max{f(a), f(b)}.
$$
詹森(Jensen)不等式 若$f$为$[a, b]$上的凸函数,则对任意$x_i \in [a, b], \lambda_i > 0 \ (i = 1, 2, \cdots, n), \ \sum^n_{i = 1} \lambda_i = 1$,有
$$
f(\sum^n_{i=1} \lambda_i x_i) \leq \sum^n_{i=1} \lambda_i f(x_i).
$$
引理 设$f$为开区间$I$内的凸函数(凹函数),则$f$在$I$内任一点$x_0$都存在左、右导数。从而$f$在$x_0$连续。
拐点
定义2 设曲线$y = f(x)$在点$(x_0, f(x_0))$处有穿过曲线的切线,且在切点近旁,曲线在切线的两侧分别是严格凸和严格凹的,这时称点$(x_0, f(x_0))$为曲线$y = f(x)$的拐点。
拐点是凹和凸曲线的分界点。
定理6.16 若$f$在$x_0$二阶可导,则$(x_0, f(x_0))$为曲线$y = f(x)$的拐点的必要条件是$f^{(2)} = 0$.
定理6.17 设$f$在$x_0$可导,在某领域$U^o(x_0)$上二阶可导。若在$U^o_{+}(x_0)$和$U^o_{-}(x_0)$上$f^{(2)}$的符号相反,则$(x_0, f(x_0))$为曲线$y = f(x)$的拐点。
注意:若$(x_0, f(x_0))$是曲线$y = f(x)$的一个拐点,$y = f(x)$在$x_0$的导数不一定存在,如$y = \sqrt[3]{x}$在$x = 0$。
定理 如下三个陈述成立。
- 若$f$为凸函数,$\lambda$为非负实数,则$\lambda f$为凸函数;
- 若$f, g$均为凸函数,则$f + g$为凸函数;
- 若$f$为区间$I$上凸函数,$g$为$J \supset f(I)$上凸增函数,则$g \circ f$为$I$上凸函数。
定理 设$f$为区间$I$上严格凸函数,$x_0 \in I$为$f$的极小值点,则$x_0$为$f$在$I$上唯一的极小值点。
定理 若$f, g$均为区间$I$上凸函数,则$F(x) = \max {f(x), g(x)}$也是$I$上凸函数。
几个重要不等式
均值不等式 设$a_i > 0 \ (i = 1, 2, \cdots, n)$,有
$$
\frac{n}{\frac{1}{a_1} + \frac{1}{a_2} + \cdots + \frac{1}{a_n}} \leq \sqrt[n]{a_1 a_2 \cdots a_n} \leq \frac{a_1 + a_2 + \cdots + a_n}{n}
$$
证明,构造函数$f(x) = \ln(x)$可证明第二个不等号,然后用变化$x = \frac{1}{t}$和第二个不等号证明第一个不等号。
Young 不等式 设$a, b, p, q$均是正实数,且$\frac{1}{p} + \frac{1}{q} = 1$,则
$$
ab \leq \frac{a^p}{p} + \frac{b^q}{q}
$$
等号成立当且仅当 $a^p = b^q$.
证明,利用函数$y = e^x$的凸性
$$
ab = e^{\ln(a)} e^{\ln(b)} = e^{\frac{1}{p} \ln(a^p) + \frac{1}{q} \ln(b^q)} \leq \frac{1}{p} e^{\ln(a^p)} + \frac{1}{q} e^{\ln(b^q)} = \frac{a^p}{p} + \frac{b^q}{q}.
$$
可以用该不等式证明如下的Holder不等式。
Holder 不等式 设$a_i, b_i > 0 \ (i = 1, 2, \cdots, n)$,有
$$
\sum^n_{i = 1} a_i b_i \leq (\sum^n_{i = 1} a^p_i)^{\frac{1}{p}}(\sum^n_{i = 1} b^q_i)^{\frac{1}{q}}
$$
其中$p > 1, q > 1, \frac{1}{p} + \frac{1}{q} = 1$.
证明,取$a = \frac{a_k}{(\sum^n_{i = 1}a^p_i)^{\frac{1}{p}}}$, $b = \frac{b_k}{(\sum^n_{i = 1}b^q_i)^{\frac{1}{q}}}$ ,并带入Young不等式。