栏目分类

热点资讯

18+动漫

你的位置：SM调教 > 18+动漫 > 【MSMD-005】She Male Jam 5</a>2008-08-04グローリークエスト&$MANIAC S108分钟最火 AI 脚色上演流量已达谷歌搜索 20%：每秒处分两万推理苦求，Transformer 作家公开优化诀要

【MSMD-005】She Male Jam 5</a>2008-08-04グローリークエスト&$MANIAC S108分钟最火 AI 脚色上演流量已达谷歌搜索 20%：每秒处分两万推理苦求，Transformer 作家公开优化诀要

发布日期：2024-08-27 13:25 点击次数：67

什么 AI 应用每秒处分 20000 个 AI 推理苦求【MSMD-005】She Male Jam 52008-08-04グローリークエスト&$MANIAC S108分钟，达到 2024 年谷歌搜索流量的 1/5？

谜底是独角兽 Character.ai，由 Transformer 作家 Noam Shazeer（后头简称沙哥）创办。

刚刚，沙哥公布了推理优化独门诀要，速即引起业界热议。

最火 AI 脚色上演流量已达谷歌搜索 20%：每秒处分两万推理苦求，Transformer 作家公开优化诀要

具体来说 Character.ai 在通盘这个词处事堆栈中竣事了如下得益：

内存高效架构瞎想：将 KV 缓存大小减少 20 倍以上，而不会裁减质地

Attention 现象缓存：95% 苦求无需重算

径直用 in8 精度量化磨砺：推理零蚀本还省显存

Character.AI 通过以上各样优化，也曾把推理资本裁减到领先的 1/33，淌若用市集上最佳的买卖 API 来援救这种级别的流量，资本会比刻下跨越 13.5 倍！

远大公布的形式中，原生 int8 磨砺是最受暖和的。

最火 AI 脚色上演流量已达谷歌搜索 20%：每秒处分两万推理苦求，Transformer 作家公开优化诀要

天然大多数时刻都来自公开接洽，然而正如网友所说，知说念怎么把它们高效整合在一皆竣事的团队才是确实的护城河。

最火 AI 脚色上演流量已达谷歌搜索 20%：每秒处分两万推理苦求，Transformer 作家公开优化诀要

诀要 1：高效愚弄显存，attention 参数目裁减 20 倍

大模子的一大痛点是显存占用高，导致无法支抓无数目推理。Attention 层中的 Key-Value (KV) 缓存就是罪魁首恶之一。

为了裁减显存占用，Character.AI 在 Attention 层大源头术：

全面收受 MQA（Multi-Query Attention）

与大多数开源模子中收受的 GQA（Grouped-Query Attention）比较，将 KV 缓存大小减少了 8 倍。

而 MQA 恰是沙哥本东说念主 2019 年在谷歌时代淡薄的，有网友评价“当一个东说念主能在坐蓐环境中援用我方的论文，就达到了一个新的高度”。

最火 AI 脚色上演流量已达谷歌搜索 20%：每秒处分两万推理苦求【MSMD-005】She Male Jam 5</a>2008-08-04グローリークエスト&$MANIAC S108分钟，Transformer 作家公开优化诀要

夹杂把稳力视线

将局部把稳力与全局把稳力层交汇在一皆，使用滑动窗口磨砺局部把稳力，将复杂度从 O (length^2) 裁减到 O (length)。

团队发现，将大多数把稳力层的把稳力界限减少到 1024 不会对评估方针产生枢纽影响，包括长凹凸文大海捞针基准。在 Character.ai 坐蓐模子中，每 6 层中惟一 1 层使用全局把稳力。

跨层 KV 分享

团队将 KV 缓存绑定在相邻的把稳力层上，这进一步将 KV 缓存大小减少了 2-3 倍。

关于全局把稳力，跨块绑定多个全局层的 KV 缓存，因为全局把稳力层在长凹凸文用例中主导 KV 缓存大小，团队发现跨层分享 KV 不会裁减质地。

下图中左半部分是范例 Transformer 瞎想，每个把稳力都是全局把稳力。右半部分为 Character.ai 的瞎想，蓝色框示意全局把稳力，绿色框示意局部把稳力，连线示意 KV 分享。

最火 AI 脚色上演流量已达谷歌搜索 20%：每秒处分两万推理苦求，Transformer 作家公开优化诀要

这一套组合拳下来，KV 缓存大小减少 20 倍以上，显存再也不是瓶颈了。

诀要 2：巧用现象缓存，95% 苦求无需重算

Character.AI 还有一招神来之笔，就是在不同对话之间缓存 Attention 现象。

当作聊天机器东说念主脚色上演处事，Character.AI 上大部分对话都是一语气多轮的，平均每个对话包含 180 条音尘。淌若每次都要再行谋划前边的现象，资本了然于目。

于是团队瞎想了一个缓存机制，把每个对话的 Prefix 和生成的音尘都缓存在内存中，供后续调用。

鉴戒 RadixAttention 的念念路，树状结构的 LRU 缓存组织缓存的 KV 张量。缓存的 KV 值由前缀 token 的 Rolling Hash 速检索最长匹配的缓存，即使前缀惟一部分匹配也能射中。

更妙的是，他们还用会话保抓 (Sticky Session) 把归拢双话路由到归拢个处事器，进一步擢升缓存射中率。最终作念到 95% 的苦求都能复用已有缓存，大幅裁减了谋划资本。

下图中，蓝色框示意主机内存上的缓存张量。绿色和黄色框示意 CUDA 内存上的 KV 缓存。当新查询到达时，它检索最长匹配前缀的 KV 缓存，Rolling Hash 系统允许检索部分匹配音尘的缓存。

最火 AI 脚色上演流量已达谷歌搜索 20%：每秒处分两万推理苦求，Transformer 作家公开优化诀要

诀要 3：径直量化磨砺，推理零蚀本还省显存

终末一招，Character.AI 莫得收受常见的“磨砺后量化”，而是径直用 Int8 精度磨砺模子。

这种形式天然抒发精度裁减，但通过全心瞎想定制的矩阵乘和 Attention 内核，不仅把磨砺恶果擢升了好几倍，而况还能无损用于推理。

不外沙哥在这里暂时留了一手，示意“量化磨砺自己就是一个复杂的话题，将在以后的著作中赓续商量。”

沙哥其东说念主

终末再来先容一下传闻东说念主物 Noam Shazeer 本东说念主。

最火 AI 脚色上演流量已达谷歌搜索 20%：每秒处分两万推理苦求，Transformer 作家公开优化诀要

色狼窝影院

他 1994 年拿了信息学奥赛 IOI 金牌，自后毕业于杜克大学。

2000 年加入谷歌，其时全公司惟一 200 东说念主傍边，他参与了谷歌搜索的拼写改良功能，自后也舒适过早期告白系统。

据知情东说念主表现，在当初口试谷歌时，沙哥就被问到怎么竣事拼写改良。他描摹了一种凭据其他用户的输入输入纪录，进行统计考证的形式。

口试官 Gmail 之父 Paul Buchheit 顽强到，沙哥的决议比谷歌其时使用的要好。沙哥顺利入职之后就把他的口试决议写出来了。

最火 AI 脚色上演流量已达谷歌搜索 20%：每秒处分两万推理苦求，Transformer 作家公开优化诀要

在 Transformer 开山之作《Attention is All You Need》接洽中，沙哥终末一个加入团队，一来就舒适再行编写了通盘这个词代码。

在沙哥开首之前，Transformer 早期原型性能并莫得零碎其时流行的 LSTM 决议，是他把早期瞎想中的卷积等模块都拿掉，给出了一个极简见识决议。最终破了 BLEU 测试的纪录，同期谋划恶果也更高。

队友用“他是一个巫师”来评价他的工程和代码才调。

除此除外，沙哥还有惊东说念主的远见。在 Transformer 架构问世不久，他就给谷歌高层写信，提议公司撤消通盘这个词搜索索引，并用 Transformer 架构磨砺一个重大的神经网罗替代。

2021 年，沙哥离开谷歌后创办了 Character.AI，让玩家绵薄自创个性化 AI 陪聊，刻下估值约 50 亿好意思元。

最火 AI 脚色上演流量已达谷歌搜索 20%：每秒处分两万推理苦求，Transformer 作家公开优化诀要

最近有音尘称，Meta 与马斯克的𝕏都在争取与他们调和，把聊天机器东说念主引入外交平台。

参考连结：

[1]https://research.character.ai/optimizing-inference/

[2]https://x.com/NoamShazeer/status/1803790708358410380

告白声明：文内含有的对外跳转连结（包括不限于超连结、二维码、口令等款式）【MSMD-005】She Male Jam 52008-08-04グローリークエスト&$MANIAC S108分钟，用于传递更多信息，勤俭甄选时期，罢休仅供参考，IT之家通盘著作均包含本声明。

上一篇：【MSMD-005】She Male Jam 5</a>2008-08-04グローリークエスト&$MANIAC S108分钟长沙：购康泰克等伤风药需身份证

下一篇：hongkongdoll porn [怀化]年青情侣一点不挂命丧浴室/图

栏目分类

热点资讯

18+动漫

【MSMD-005】She Male Jam 5</a>2008-08-04グローリークエスト&$MANIAC S108分钟 最火 AI 脚色上演流量已达谷歌搜索 20%：每秒处分两万推理苦求，Transformer 作家公开优化诀要

【MSMD-005】She Male Jam 5</a>2008-08-04グローリークエスト&$MANIAC S108分钟最火 AI 脚色上演流量已达谷歌搜索 20%：每秒处分两万推理苦求，Transformer 作家公开优化诀要