CANN/ge异步KV缓存传输API-洪萨配资

# transfer_cache_async

【免费下载链接】geGE（Graph Engine）是面向昇腾的图编译器和执行器，提供了计算图优化、多流并行、内存复用和模型下沉等技术手段，加速模型执行效率，减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力，并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge

产品支持情况

Atlas A3 训练系列产品/Atlas A3 推理系列产品：支持
Atlas A2 推理系列产品：支持
Atlas A2 训练系列产品：不支持

函数功能

异步分层传输KV Cache。

函数原型

transfer_cache_async(src_cache: KvCache, layer_synchronizer: LayerSynchronizer, transfer_configs: Union[List[TransferConfig], Tuple[TransferConfig]], src_block_indices: Optional[Union[List[int], Tuple[int]]] = None, dst_block_indices: Optional[Union[List[int], Tuple[int]]] = None, dst_block_memory_size: Optional[int] = None) -> CacheTask

参数说明

参数名称	数据类型	取值说明
src_cache	KvCache	源Cache。
layer_synchronizer	LayerSynchronizer	LayerSynchronizer的实现类对象
transfer_configs	Union[List[TransferConfig], Tuple[TransferConfig]]	传输配置列表或元组
src_block_indices	Optional[Union[List[int], Tuple[int]]]	源Cache的block indices，当源Cache为PA场景时设置
dst_block_indices	Optional[Union[List[int], Tuple[int]]]	目的Cache的block indices，当目的Cache为PA场景时设置
dst_block_memory_size	Optional[int]	目的Cache每个block占用的内存大小，当目的Cache为PA场景时设置。如果源Cache也为PA场景，则可省略该参数，此时会自动将其设置为源Cache每个block占用的内存大小。该参数设置为0时等同于省略该参数。

调用示例

from llm_datadist import * ... class LayerSynchronizerImpl(LayerSynchronizer): def synchronize_layer(self, layer_index: int, timeout_in_millis: Optional[int]) -> bool: # need control time for transfer layer here. return True num_layers = 40 dst_cluster_id = 2 # need register decoder kv addr here. decoder_addrs = ... assert(len(decoder_addrs) = 2*num_layers) transfer_config = TransferConfig(dst_cluster_id, decoder_addrs, range(0, num_layers), 0) cache_task = kv_cache_manager.transfer_cache_async(kv_cache, LayerSynchronizerImpl(), [transfer_config]) cache_task.synchronize() cache_task.get_results()

返回值

正常情况下返回CacheTask。

传入数据类型错误，会抛出TypeError或ValueError异常。

传入数据非法，会抛出LLMException异常。

约束说明

当前仅支持src_cache与dst_cache都为连续cache的场景以及src_cache与dst_cache都为PA的场景。
使用同一条链路时，此接口和pull_cache、pull_blocks接口不支持并发。
本接口不支持并发调用。
单进程多卡模式下，不支持调用该接口。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

5步构建你的专属音乐宇宙：洛雪音乐音源配置完全指南

5步构建你的专属音乐宇宙：洛雪音乐音源配置完全指南【免费下载链接】lxmusic- lxmusic(洛雪音乐)全网最新最全音源项目地址: https://gitcode.com/gh_mirrors/lx/lxmusic- 你是否厌倦了在不同音乐平台间来回切换？是否受够了某些歌曲只能在特定平…

李华

如何在电脑上免费玩Switch游戏：yuzu模拟器完整指南

如何在电脑上免费玩Switch游戏：yuzu模拟器完整指南【免费下载链接】yuzu 任天堂 Switch 模拟器项目地址: https://gitcode.com/GitHub_Trending/yu/yuzu 想在电脑上体验《塞尔达传说：旷野之息》的壮丽世界吗？或者想在PC上和朋友一起…

李华

国标视频监控平台碎片化难题的破局之道：wvp-GB28181-pro企业级部署深度解析

国标视频监控平台碎片化难题的破局之道：wvp-GB28181-pro企业级部署深度解析【免费下载链接】wvp-GB28181-pro 基于GB28181-2016、部标808、部标1078标准实现的开箱即用的网络视频平台。自带管理页面，支持NAT穿透，支持海康、大华、宇视等品牌…

李华

如何通过Claude-Relay-Service构建一站式AI模型中转平台：完整指南与实战教程

如何通过Claude-Relay-Service构建一站式AI模型中转平台：完整指南与实战教程【免费下载链接】claude-relay-service CRS-自建Claude Code镜像，一站式开源中转服务，让 Claude、OpenAI、Gemini、Droid 订阅统一接入，支持拼车共享&a…

李华

YOLO目标检测与RK3588硬件适配实战指南

1. YOLO目标检测的技术演进与行业价值在计算机视觉领域，目标检测技术始终扮演着关键角色。YOLO（You Only Look Once）系列算法自2016年问世以来，凭借其"单次检测"的创新思路，彻底改变了传统目标检测的流程范式…

李华

Hello Web API系列教程——Web API与国际化

在.net平台中，软件的国际化主要依靠工作线程的国际化来完成。在.net框架的的处理线程中，我们通过设置Thread.CurrentCulture属性来实现对日期、时间、数字、货币值、文本的排序顺序，负载约定和字符串比较的默认值的格式确定，默认情…

李华