https://x.com/llennchan2003/status/1813039300478705786
#AI #LLM
需要找一位CUDA工程师,负责高性能LLM推理引擎开发,主要是负责某特殊架构的MOE语言模型在H100上的推理实现,预算高(10W+),请联系我
你应该会:
1.直接hardcode,针对具体模型优化的c代码实现推理引擎
2.对调度,运筹学,算法优化有一定的了解
3.知道如何压缩KV Cache的大小,实现从硬盘/cpu ram的高效加载/持久化方案
加分项是:
解决prefix变化时的kv cache复用问题
目标是:实现超过现有开源方案的5-10倍吞吐量的推理引擎,仅针对某个具体模型,目前已有相关大厂实现了这一点,证明了这是可能的。
---
4.5 分
---
这个待遇低不了。
#AI #LLM
需要找一位CUDA工程师,负责高性能LLM推理引擎开发,主要是负责某特殊架构的MOE语言模型在H100上的推理实现,预算高(10W+),请联系我
你应该会:
1.直接hardcode,针对具体模型优化的c代码实现推理引擎
2.对调度,运筹学,算法优化有一定的了解
3.知道如何压缩KV Cache的大小,实现从硬盘/cpu ram的高效加载/持久化方案
加分项是:
解决prefix变化时的kv cache复用问题
目标是:实现超过现有开源方案的5-10倍吞吐量的推理引擎,仅针对某个具体模型,目前已有相关大厂实现了这一点,证明了这是可能的。
---
4.5 分
---
这个待遇低不了。