#远程 #AI #全栈 #React

地域:深圳,上海,或者西安。
Email: neal@elgo.cc
---
3.0 分
https://x.com/llennchan2003/status/1813039300478705786

#AI #LLM

需要找一位CUDA工程师,负责高性能LLM推理引擎开发,主要是负责某特殊架构的MOE语言模型在H100上的推理实现,预算高(10W+),请联系我

你应该会:
1.直接hardcode,针对具体模型优化的c代码实现推理引擎
2.对调度,运筹学,算法优化有一定的了解
3.知道如何压缩KV Cache的大小,实现从硬盘/cpu ram的高效加载/持久化方案

加分项是:
解决prefix变化时的kv cache复用问题

目标是:实现超过现有开源方案的5-10倍吞吐量的推理引擎,仅针对某个具体模型,目前已有相关大厂实现了这一点,证明了这是可能的。

---
4.5 分
---
这个待遇低不了。
 
 
Back to Top