400 128 6709

行业新闻

为什么大型语言模型都在使用 SwiGLU 作为激活函数?

发布时间:2024-04-08点击次数:

如果你一直在关注大型语言模型的架构,你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数,我们本篇文章就来对它进行详细的介绍。SwiGLU其实是2025年谷歌提出的激活函数,它结合了SWISH和GLU两者的特点。 SwiGLU的中文全称是“双向门控线性单元”,它将SWISH和GLU两种激活函数进行了优化和结合,以提高模型的非线性表达能力。SWISH是一种非常普遍的激活函数,它在大语言模型中得到广泛应用,而GLU则在自然语言处理任务中表现出色。 SwiGLU的优点在于它能够同时获取SWISH的平滑特性和GLU的门控特性,从而在模型的非线性表达上更加

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

为什么大型语言模型都在使用 SwiGLU 作为激活函数?

我们一个一个来介绍:

Swish

Swish是一个非线性激活函数,定义如下:

Swish(x) = x*sigmoid(ßx)

为什么大型语言模型都在使用 SwiGLU 作为激活函数?

其中,ß 为可学习参数。Swish 可以比ReLU激活函数更好,因为它给予了更平滑的转换,这可以带来更好的优化。

Gated Linear Unit

GLU(Gated Linear Unit)定义为两个线性变换的分量积,其中一个线性变换由sigmoid激活。

GLU(x) = sigmoid(W1x+b)⊗(Vx+c)

为什么大型语言模型都在使用 SwiGLU 作为激活函数?

GLU模块可以有效地捕获序列中的远程依赖关系,同时避免了LSTM和GRU等其他门控机制相关的一些梯度消失问题。

SwiGLU

我们已经说过SwiGLU是两者的结合。它是一个GLU,但不是将sigmoid作为激活函数,而是使用ß=1的swish,因此我们最终得到以下公式:

SwiGLU(x) = Swish(W1x+b)⊗(Vx+c)

我们用SwiGLU函数构造一个前馈网络

FFNSwiGLU(x) = (Swish1(xW)⊗xV)W2

Pytorch的简单实现

如果上面的数学原理看着比较麻烦枯燥难懂,我们下面直接使用代码解释。

class SwiGLU(nn.Module): def __init__(self, w1, w2, w3) -> None:super().__init__()self.w1 = w1self.w2 = w2self.w3 = w3 def forward(self, x):x1 = F.linear(x, self.w1.weight)x2 = F.linear(x, self.w2.weight)hidden = F.silu(x1) * x2return F.linear(hidden, self.w3.weight)

我们代码使用的F.silu函数与ß=1时的swish相同的,所以就直接拿来使用了。

代码可以看到,我们的激活函数中也有3个权重是可以训练的,这就是来自于GLU公式里的参数。

SwiGLU的效果对比

SwiGLU与其他GLU变体进行比较,我们可以看到SwiGLU在两种预训练期间都表现得更好。

为什么大型语言模型都在使用 SwiGLU 作为激活函数?

下游任务

为什么大型语言模型都在使用 SwiGLU 作为激活函数?

效果表现得最好,所以现在的llm,如LLAMA, OLMO和PALM都在其实现中采用SwiGLU。但是为什么SwiGLU比其他的好呢?

Machine Translation Machine Translation

聚合多个来源的AI翻译

Machine Translation 49 查看详情 Machine Translation

论文中只给了测试结果而且并没有说明原因,而是说:

We offer no explanation as to why these architectures seem to work; we  attribute their success, as all else, to divine benevolence.

作者说炼丹成功了。

但是现在已经是2025年了我们可以强行的解释一波:

1、Swish对于负值的响应相对较小克服了 ReLU 某些神经元上输出始终为零的缺点

2、GLU 的门控特性,这意味着它可以根据输入的情况决定哪些信息应该通过、哪些信息应该被过滤。这种机制可以使网络更有效地学习到有用的表示,有助于提高模型的泛化能力。在大语言模型中,这对于处理长序列、长距离依赖的文本特别有用。

3、SwiGLU 中的参数 W1,W2,W3,b1,b2,b3W1,W2,W3,b1,b2,b3 可以通过训练学习,使得模型可以根据不同任务和数据集动态调整这些参数,增强了模型的灵活性和适应性。

4、计算效率相比某些较复杂的激活函数(如 GELU)更高,同时仍能保持较好的性能。这对于大规模语言模型的训练和推理是很重要的考量因素。

选择 SwiGLU  作为大语言模型的激活函数,主要是因为它综合了非线性能力、门控特性、梯度稳定性和可学习参数等方面的优势。在处理语言模型中复杂的语义关系、长依赖问题、以及保持训练稳定性和计算效率方面,SwiGLU 表现出色,因此被广泛采用。

论文地址

https://www.php.cn/link/86e33d550dc162366a02003089ab9894

以上就是为什么大型语言模型都在使用 SwiGLU 作为激活函数?的详细内容,更多请关注其它相关文章!


# swiglu  # llama  # follow  # 门控  # 都在  # 开源  # 上海  # 中国科学院  # 大型语言模型  # 网站seo 技巧  # 建设银行网站优点  # seo中的精髓是什么  # 邵阳网站开发建设  # 遂宁做推广的网站便宜的  # 陕西网站建设工作方案  # 红书推广营销怎么做的呢  # 拖拽式网站建设工具  # 状元府营销推广方案  # 张家界全网整合营销推广  # 是一个  # 因为它  # 可以看到  # 腾讯  # 两种 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 提升工作效率的智能工具:Zapier 让工作变得更简单!  OpenOOD更新v1.5:全面、精确的分布外检测代码库及测试平台,支持在线排行榜、一键测试  AMD称下半年AI显卡供应充足,不需要像NVIDIA那样加价抢购  人工智能在重症监护室的未来  中国移动主导创立元宇宙产业联盟,包括科大讯飞、芒果TV等在内,共24家成员  真全息产品,亮相深圳文博会——dipal数伴拓展元宇宙非沉浸式体验  插画师对AI绘画软件的态度是怎样的?  “技术+实践+生态”三箭齐发,京东方抢占物联网高地  研究发现AI聊天机器人ChatGPT不会讲笑话,只会重复25个老梗  小艺将具备大模型能力,鸿蒙4加速AI普及之路  Unity 推出面向开发者的 AI 软件市场 AI Hub,股价飙涨 15%  数字文明尼山对话 | 在东方圣城与AI潮流梦幻联动,看“智慧大脑”让数字山东更美好  测试框架-安全和自动驾驶  智能技术提高现代商业运营的7七种方式  人工智能即将进入Windows:企业准备好安全策略设置了吗?  边喷火边跳踢踏舞,机器狗最新技能爆火全网!网友直呼真·热狗  一次购买全年省心,入手科沃斯这几台机器人,省下时间就是金钱  AMD在AI方面奋起直追,与英伟达的差距缩小了吗?  微软为 AI 初学者推出免费网课:为期 12 周,共 24 节课  网易云音乐和小冰推出AI歌手音乐创作软件,首发内置12名AI歌手  昇腾AI大模型训推一体化解决方案将在WAIC发布  天翼云在国际AI顶会大模型挑战赛中获得冠军  CREATOR制造、使用工具,实现LLM「自我进化」  鸿蒙4即将支持大规模AI模型  人形机器人概念集体爆发,能买吗?  基于预训练模型的金融事件分析及应用  能抓取玻璃碎片、水下透明物,清华提出通用型透明物体抓取框架,成功率极高  智能机器人与话剧的完美结合:宇树四足机器人B1助力《骆驼祥子》重现经典  无人机自主巡检为高海拔输电线路运维添“新彩”  AI取代人工先拿教育行业开刀?美版“作业帮”启动裁员  五款 AI 网站构建器,任何人都能快速构建网站  OpenAI 向所有付费 API 用户开放 GPT-4  这款在《自然通讯》发表的机器人,为变形金刚来到现实创造可能性  消息称 Meta Quest 将推 VR 游戏订阅:每月 7.99 美元,任选两款  Databricks 发布大数据分析平台 Spark 用 AI 模型 SDK:一键生成 SQL 及 FySpark 语言图表代码  2025“春晖杯”人工智能专场对接活动举办  这效果能打几分?AI真人化《名侦探柯南》  GPT-4成功战胜AI-Guardian审核系统:谷歌研究团队的人工智能抵抗人工智能  国内通用人形机器人将发布、产业加速突破  大模型的“黄金搭档”来了!腾讯云正式发布AI原生向量数据库,提供10亿级向量检索能力  云鲸发布全新的扫拖机器人J4系列  Stability AI 推出文生图模型 SDXL0.9,GPU要求下探至消费级水平  iPhone两秒出图,目前已知的最快移动端Stable Diffusion模型来了  Meta 开源 AI 语言模型 MusicGen,可将文本和旋律转化为完整乐曲  “智能体动作生成技术”现身WAIC:游戏AI技术为机器人科创注入新动力  鸿蒙智能座舱的AI大模型革新,引领智能座舱领域的变革吗?  当人工智能开始写高考作文?作家陈崇正、朱山坡谈文学与未来  报告称 70% 程序员已使用各种 AI 工具编程  AI生成新闻网站数量激增,正在疯狂赚取广告收入  财联社首档运用虚拟人技术播报栏目《AI半小时》今晚上线!敬请期待 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司