https://x.com/llennchan2003/status/1813039300478705786

#AI #LLM

需要找一位CUDA工程师,负责高性能LLM推理引擎开发,主要是负责某特殊架构的MOE语言模型在H100上的推理实现,预算高(10W+),请联系我

你应该会:
1.直接hardcode,针对具体模型优化的c代码实现推理引擎
2.对调度,运筹学,算法优化有一定的了解
3.知道如何压缩KV Cache的大小,实现从硬盘/cpu ram的高效加载/持久化方案

加分项是:
解决prefix变化时的kv cache复用问题

目标是:实现超过现有开源方案的5-10倍吞吐量的推理引擎,仅针对某个具体模型,目前已有相关大厂实现了这一点,证明了这是可能的。

---
4.5 分
---
这个待遇低不了。
https://www.v2ex.com/t/1056632?p=1
#远程 #web3 #兼职 #前端

时薪 120-150 CNY/小时,月结/半月结算(直接打卡),每日工作 4h-6h
国内远程 Web3 公司,需要开发一个产品,具体说明如下:

1.负责公司 Telegram web app 前端功能的研发
任职要求:
1. 计算机或软件开发相关专业,有一定英语基础
2. 有 Nextjs 项目经验,精通 HTML / CSS / Javascript / Typescript / 熟悉 Canvas
3. 熟练掌握 React + Redux 和风格化的组件。
4. 熟练使用 github ,熟悉 git 工作流
5. 熟悉用户交互设计理论,热衷分析并改善产品的用户体验
6. 具备工程化的前端思维,具备较好的问题分析与解決能力
7. 有 telegram web app 经验者优先


Email: guoyue@ohdat.io

---

3.0 分
Back to Top