news 2026/7/4 7:39:46

CANN/ge异步KV缓存传输API

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN/ge异步KV缓存传输API

# transfer_cache_async

【免费下载链接】geGE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力,并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge

产品支持情况

  • Atlas A3 训练系列产品/Atlas A3 推理系列产品:支持
  • Atlas A2 推理系列产品:支持
  • Atlas A2 训练系列产品:不支持

函数功能

异步分层传输KV Cache。

函数原型

transfer_cache_async(src_cache: KvCache, layer_synchronizer: LayerSynchronizer, transfer_configs: Union[List[TransferConfig], Tuple[TransferConfig]], src_block_indices: Optional[Union[List[int], Tuple[int]]] = None, dst_block_indices: Optional[Union[List[int], Tuple[int]]] = None, dst_block_memory_size: Optional[int] = None) -> CacheTask

参数说明

参数名称数据类型取值说明
src_cacheKvCache源Cache。
layer_synchronizerLayerSynchronizerLayerSynchronizer的实现类对象
transfer_configsUnion[List[TransferConfig], Tuple[TransferConfig]]传输配置列表或元组
src_block_indicesOptional[Union[List[int], Tuple[int]]]源Cache的block indices,当源Cache为PA场景时设置
dst_block_indicesOptional[Union[List[int], Tuple[int]]]目的Cache的block indices,当目的Cache为PA场景时设置
dst_block_memory_sizeOptional[int]目的Cache每个block占用的内存大小,当目的Cache为PA场景时设置。如果源Cache也为PA场景,则可省略该参数,此时会自动将其设置为源Cache每个block占用的内存大小。
该参数设置为0时等同于省略该参数。

调用示例

from llm_datadist import * ... class LayerSynchronizerImpl(LayerSynchronizer): def synchronize_layer(self, layer_index: int, timeout_in_millis: Optional[int]) -> bool: # need control time for transfer layer here. return True num_layers = 40 dst_cluster_id = 2 # need register decoder kv addr here. decoder_addrs = ... assert(len(decoder_addrs) = 2*num_layers) transfer_config = TransferConfig(dst_cluster_id, decoder_addrs, range(0, num_layers), 0) cache_task = kv_cache_manager.transfer_cache_async(kv_cache, LayerSynchronizerImpl(), [transfer_config]) cache_task.synchronize() cache_task.get_results()

返回值

正常情况下返回CacheTask。

传入数据类型错误,会抛出TypeError或ValueError异常。

传入数据非法,会抛出LLMException异常。

约束说明

  • 当前仅支持src_cache与dst_cache都为连续cache的场景以及src_cache与dst_cache都为PA的场景。
  • 使用同一条链路时,此接口和pull_cache、pull_blocks接口不支持并发。
  • 本接口不支持并发调用。
  • 单进程多卡模式下,不支持调用该接口。

【免费下载链接】geGE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力,并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/4 7:39:21

5步构建你的专属音乐宇宙:洛雪音乐音源配置完全指南

5步构建你的专属音乐宇宙:洛雪音乐音源配置完全指南 【免费下载链接】lxmusic- lxmusic(洛雪音乐)全网最新最全音源 项目地址: https://gitcode.com/gh_mirrors/lx/lxmusic- 你是否厌倦了在不同音乐平台间来回切换?是否受够了某些歌曲只能在特定平…

作者头像 李华
网站建设 2026/7/4 7:36:24

如何在电脑上免费玩Switch游戏:yuzu模拟器完整指南

如何在电脑上免费玩Switch游戏:yuzu模拟器完整指南 【免费下载链接】yuzu 任天堂 Switch 模拟器 项目地址: https://gitcode.com/GitHub_Trending/yu/yuzu 想在电脑上体验《塞尔达传说:旷野之息》的壮丽世界吗?或者想在PC上和朋友一起…

作者头像 李华
网站建设 2026/7/4 7:33:51

YOLO目标检测与RK3588硬件适配实战指南

1. YOLO目标检测的技术演进与行业价值在计算机视觉领域,目标检测技术始终扮演着关键角色。YOLO(You Only Look Once)系列算法自2016年问世以来,凭借其"单次检测"的创新思路,彻底改变了传统目标检测的流程范式…

作者头像 李华
网站建设 2026/7/4 7:33:29

Hello Web API系列教程——Web API与国际化

在.net平台中,软件的国际化主要依靠工作线程的国际化来完成。在.net框架的的处理线程中,我们通过设置Thread.CurrentCulture属性来实现对日期、时间、数字、货币值、文本的排序顺序,负载约定和字符串比较的默认值的格式确定,默认情…

作者头像 李华