AI 术语通俗词典：Tanh 函数-洪萨配资

Tanh 函数是数学、机器学习、神经网络和人工智能中非常常见的一个术语。它用来描述一种把任意实数平滑映射到 -1 和 1 之间的 S 形函数。换句话说，Tanh 函数是在回答：如果一个输入值可以很大、很小、为正或为负，怎样把它转换成一个既有上下界、又以 0 为中心的输出。

如果说 Logistic 函数回答的是“怎样把分数压缩到 0 和 1 之间”，那么 Tanh 函数回答的就是“怎样把分数压缩到 -1 和 1 之间，并保留正负方向”。因此，Tanh 函数常用于神经网络激活函数、循环神经网络、特征变换和非线性建模，在人工智能中具有重要基础意义。

一、基本概念：什么是 Tanh 函数

Tanh 是 Hyperbolic Tangent 的缩写，中文通常译为双曲正切函数。它的常见数学形式为：

其中：

• x 表示输入值

• e 表示自然常数

• tanh(x) 表示经过 Tanh 函数变换后的输出值

Tanh 函数最重要的特点是：无论 x 取多大的正数或负数，tanh(x) 的输出始终位于 -1 和 1 之间。

也就是说：

• 当 x 很小时，tanh(x) 接近 -1

• 当 x = 0 时，tanh(x) = 0

• 当 x 很大时，tanh(x) 接近 1

从通俗角度看，Tanh 函数可以理解为：把一个没有范围限制的实数，平滑压缩到 -1 到 1 之间。

例如：

• tanh(-5) 接近 -1

• tanh(0) = 0

• tanh(5) 接近 1

这说明，Tanh 不仅能限制输出范围，还能保留输入的正负方向。

二、为什么需要 Tanh 函数

Tanh 函数之所以重要，是因为很多神经网络计算需要一种既能引入非线性、又能让输出保持在稳定范围内的函数。

在神经网络中，一个神经元通常先计算线性组合：

其中：

• x₁, x₂, …, xₙ 表示输入特征

• w₁, w₂, …, wₙ 表示权重参数

• b 表示偏置项

• z 表示线性组合结果

这个 z 可能是任意实数。如果直接把 z 传给下一层，网络整体可能仍然只是线性变换，表达能力有限。

如果使用 Tanh 函数，就可以得到：

其中 a 被限制在 -1 到 1 之间，并且具有非线性变化。

从通俗角度看，Tanh 函数可以理解为：先让神经元自由打分，再把这个分数平滑压缩到一个有限范围内，同时保留“正向激活”和“负向激活”的区别。

因此，Tanh 的核心作用包括：

• 引入非线性

• 控制输出范围

• 保留正负方向

• 让输出以 0 为中心

三、Tanh 函数的直观形状

Tanh 函数的图像也是一条 S 形曲线，但它和 Logistic 函数不同：

• Logistic 函数输出范围是 0 到 1

• Tanh 函数输出范围是 -1 到 1

Tanh 曲线可以分成三个区域理解。

1、输入很小时，输出接近 -1

当 x 是较大的负数时：

这表示输入强烈偏负时，输出也接近负方向的极限。

2、输入为 0 时，输出等于 0

当 x = 0 时：

这表示函数正好经过原点。

3、输入很大时，输出接近 1

当 x 是较大的正数时：

这表示输入强烈偏正时，输出接近正方向的极限。

从通俗角度看，Tanh 函数像一个带正负方向的平滑压缩器：

• 很负的输入，被压到接近 -1

• 中间的输入，在 0 附近灵敏变化

• 很正的输入，被压到接近 1

四、如何直观理解 Tanh 的输出

Tanh 函数最核心的直觉是：它不仅告诉我们“激活强不强”，还保留了“方向是正还是负”。

例如，一个神经元得到的线性分数 z：

• z 很大，说明强烈正向响应

• z 很小，说明强烈负向响应

• z 接近 0，说明响应较弱或处在中性区域

经过 Tanh 后：

• 强烈正向响应会接近 1

• 强烈负向响应会接近 -1

• 中性响应会接近 0

从通俗角度看，Tanh 像是在把原始分数翻译成三种倾向：

• 接近 1：明显正向

• 接近 0：比较中性

• 接近 -1：明显负向

这也是它比 Logistic 函数更适合某些隐藏层计算的原因之一。因为 Tanh 的输出以 0 为中心，正值和负值都能被明确表示出来。

五、Tanh 函数的重要性与常见应用场景

1、Tanh 函数的重要性

Tanh 函数之所以重要，是因为它在神经网络中长期扮演着经典激活函数的角色。

首先，Tanh 能引入非线性。

如果神经网络中没有非线性激活函数，多层线性变换最终仍然等价于一个线性变换。Tanh 可以打破这种线性限制，使网络能够表达更复杂的关系。

其次，Tanh 输出以 0 为中心。

这比 Logistic 函数的 0 到 1 输出更有优势，因为它能同时表示正向和负向激活，也常有利于某些优化过程。

再次，Tanh 在循环神经网络中非常常见。

在 RNN、LSTM、GRU 等结构中，Tanh 常用于生成候选状态或限制隐藏状态范围。

可以概括地说：Tanh 是一种经典的非线性激活函数，它既能压缩数值，又能保留正负方向，它在序列模型和早期神经网络中具有重要地位。

2、常见应用场景

（1）在神经网络隐藏层中，Tanh 曾经非常常用

尤其是在 ReLU 大规模流行之前，Tanh 是经典隐藏层激活函数之一。

（2）在循环神经网络中，Tanh 仍然很常见

例如 RNN 隐藏状态更新、LSTM 候选记忆状态等场景中都会用到 Tanh。

（3）在需要输出位于 -1 到 1 之间的任务中，Tanh 常被使用

例如某些控制任务或生成模型输出中，若目标范围是 -1 到 1，Tanh 很自然。

（4）在特征变换中，Tanh 可用于把无界数值压缩到有限范围

（5）在神经网络教学中，Tanh 常用于解释激活函数、饱和区和梯度消失等概念

六、Tanh 函数与 Logistic 函数的关系

Tanh 函数和 Logistic 函数关系非常密切。

Logistic 函数通常写为：

Tanh 函数可以用 Logistic 函数表示为：

这个关系说明：

• Logistic 函数输出范围是 0 到 1

• Tanh 可以看作是经过缩放和平移后的 Logistic 型函数

• Tanh 输出范围变成了 -1 到 1

从通俗角度看：Tanh 像是把 Sigmoid 的输出重新拉伸并平移，使它从“0 到 1”变成“-1 到 1”。

因此，二者形状都像 S 形曲线，但中心位置和输出范围不同。

七、Tanh 函数与 Sigmoid 函数的区别

在机器学习语境中，Sigmoid 常指 Logistic 函数，因此 Tanh 经常和 Sigmoid 放在一起比较。

1、输出范围不同

Sigmoid 输出范围为：

Tanh 输出范围为：

2、中心位置不同

Sigmoid 的中心值是 0.5：

Tanh 的中心值是 0：

3、优化特性不同

由于 Tanh 输出以 0 为中心，在某些隐藏层训练中通常比 Sigmoid 更自然。但它仍然存在饱和区和梯度消失问题。

从通俗角度看：

• Sigmoid 像是把分数翻译成“正类概率”

• Tanh 像是把分数翻译成“带正负方向的激活强度”

因此：

• 输出层二分类常用 Sigmoid

• 隐藏状态表达中 Tanh 更常见

• 现代深层隐藏层中，ReLU 及其变体往往更常见

八、Tanh 函数的导数及其意义

Tanh 函数的导数形式很简洁：

这个公式说明：

• 当 tanh(x) 接近 0 时，导数接近 1

• 当 tanh(x) 接近 1 或 -1 时，导数接近 0

也就是说：

• 在 x 接近 0 的中间区域，Tanh 对输入变化比较敏感

• 在 x 很大或很小时，Tanh 会进入饱和区，变化变得迟钝

从通俗角度看：Tanh 在中间最容易变化，在两端最不容易变化。

这对神经网络训练非常重要。

因为梯度下降依赖导数，如果导数太小，误差信号就难以有效传回前面层。

因此，Tanh 的导数既说明了它的平滑性，也揭示了它可能产生梯度消失的原因。

九、Tanh 函数的优点与局限

1、优点

Tanh 函数有几个明显优点：

• 输出范围固定在 -1 到 1 之间，数值受控

• 输出以 0 为中心，能表达正向和负向激活

• 函数平滑且可导，适合梯度优化

• 在循环神经网络等结构中具有经典用途

从通俗角度看，Tanh 比 Sigmoid 更适合表达“正负方向都有意义”的中间状态。

2、局限

Tanh 也有明显局限。

首先，它容易饱和。

当输入绝对值很大时，输出接近 1 或 -1，导数接近 0。

其次，它可能导致梯度消失。

在深层网络中，如果很多层都处于饱和区，梯度会不断变小，训练会变得困难。

再次，它计算上比 ReLU 更复杂。

Tanh 涉及指数运算，而 ReLU 只需要简单比较，因此在大规模深度网络中，ReLU 通常更高效。

从通俗角度看：

• Tanh 更平滑、更对称

• ReLU 更简单、更高效

• Sigmoid 更适合概率输出

它们不是谁绝对最好，而是适合不同场景。

十、Tanh 函数与 ReLU 函数的区别

Tanh 和 ReLU 都是激活函数，但风格不同。

1、Tanh 是平滑压缩函数

Tanh 把输入压缩到 -1 和 1 之间：

它在两端会饱和。

2、ReLU 是截断线性函数

ReLU 的形式为：

它把负数变为 0，正数原样保留。

3、二者的直观区别

可以简单理解为：

• Tanh：平滑地把输入压缩到有限区间

• ReLU：粗直接地截断负值，放行正值

从训练角度看：

• Tanh 输出有上下界，但容易饱和

• ReLU 正区间梯度稳定，但可能出现死亡 ReLU

因此，现代深层网络隐藏层常优先使用 ReLU 或其变体，而 Tanh 在循环结构和特定输出范围控制中仍有重要作用。

十一、使用 Tanh 函数时需要注意的问题

1、Tanh 适合表达带正负方向的激活

如果输出需要有正负含义，并且希望数值范围稳定，Tanh 是自然选择。

2、Tanh 不适合作为二分类概率输出

因为它输出范围是 -1 到 1，而概率通常应在 0 到 1 之间。

二分类概率输出通常更适合使用 Sigmoid。

3、Tanh 在深层网络中可能出现梯度消失

尤其当输入落入饱和区时，梯度会变小。

4、Tanh 常用于 RNN、LSTM、GRU 等序列模型结构

它可以把隐藏状态或候选状态限制在较稳定范围内。

5、选择激活函数要结合网络结构与任务目标

不能机械认为 Tanh、Sigmoid 或 ReLU 谁永远最好。

应结合输出语义、梯度传播、数值范围和训练表现综合判断。

十二、Python 示例

下面给出两个简单示例，用来说明 Tanh 函数的基本计算方式。

示例 1：手动计算 Tanh 函数

import math # 数学库，用于指数运算 # 输入值x = 1.5 # 双曲正切函数：tanh(x) = (e^x - e^{-x}) / (e^x + e^{-x})，输出范围(-1,1)tanh_value = (math.exp(x) - math.exp(-x)) / (math.exp(x) + math.exp(-x)) print("输入 x =", x)print("tanh(x) =", tanh_value)

这个例子展示了 Tanh 函数的原始公式计算方式。输入可以是任意实数，输出会被压缩到 -1 和 1 之间。

示例 2：用 NumPy 计算一组输入的 Tanh 输出

import numpy as np # 数值计算库 # 一组输入值（5个实数）x = np.array([-4.0, -1.0, 0.0, 1.0, 4.0]) # Tanh 函数（双曲正切），输出范围 (-1,1)y = np.tanh(x) print("输入：", x)print("Tanh 输出：", y)

这个例子展示了 Tanh 函数的整体变化趋势：

• 负数输入会输出负值

• 0 输入输出为 0

• 正数输入会输出正值

• 输入绝对值越大，输出越接近 -1 或 1

📘 小结

Tanh 函数是一种把任意实数平滑映射到 -1 和 1 之间的 S 形激活函数。它的核心特点是输出以 0 为中心，能够表达正向和负向激活，因此在神经网络隐藏层和循环神经网络中非常常见。相比 Sigmoid，Tanh 更适合表达带方向的激活强度；相比 ReLU，它更平滑但更容易进入饱和区。对初学者而言，可以把它理解为：Tanh 是一个带正负方向的平滑压缩器，把原始分数转成 -1 到 1 之间的激活信号。

“点赞有美意，赞赏是鼓励”

AI 术语通俗词典：Tanh 函数

【自抗扰控制ADRC】跟踪微分器：从数学描述到参数整定与性能分析

skill-clawhub：模块化爬虫框架的设计原理与实战应用

Nodejs后端服务在虚拟机部署，接入Taotoken多模型API指南

Bulletproof方法论：从AI氛围编程到防弹开发的12阶段工程实践

F3D：如何用这款极简3D查看器让你的工作效率翻倍？

3分钟掌握pinyinjs：最轻量的中文拼音转换JavaScript库