|
- 大模型推理框架,SGLang和vLLM有哪些区别? - 知乎
这问题很多人都会有。 诸如:“现在部署Llama 3 3用vLLM还是SGLang?”。 每次听到这问题,我都差点把咖啡喷到屏幕上。 这问题就像问"买车选特斯拉还是比亚迪"一样,没有标准答案,但坑我都踩过… 作为一个折腾了N年LLM推理的老码农,我觉得是时候好好聊聊这两个框架了。 说实话,去年我们团队从
- openclaw 如何连接本地4B量化模型? - 知乎
这个问题比较技术性,我来详细解答 OpenClaw 连接本地量化模型的方法。 先了解 OpenClaw OpenClaw 是一个开源的 AI 助手框架,支持连接多种大模型后端。 连接本地4B量化模型,主要是通过 Ollama 、 llama cpp 或 vLLM 作为后端。 方法一:使用 Ollama(推荐) Step 1:安装 Ollama
- 多机多卡docker部署vllm - 知乎
2 启动容器 build镜像后,分别在2台机器上启动容器,docker run的时候,带上entrypoint sh文件中所需的2个参数(NODE_TYPE、HEAD_NODE_ADDRESS)。 其中,我们指定一个节点为head节点,另一个节点为work节点,需要注意的是在启动work节点的时候,需要任然需要传入head节点的ip
- 有人使用vLLM加速过自己的大语言模型吗?效果怎么样? - 知乎
vllm 目前还是一个非常不稳定的框架,API 设计得一塌糊涂,参数跟 hugging face 的 transformer 很多不兼容,最大的bug ,同样的参数,在hugging face 的transformer 结果有很大的区别,vllm 出来的结果却是错的,很多人都有报告这个问题,不太明白,vllm 是牺牲的效果达到
- vllm 为什么没在 prefill 阶段支持 cuda graph? - 知乎
vLLM用连续批处理,不同请求的prefill被动态打包——这一批三个请求,下一批五个,每次组合不一样。 这种动态性让prefill阶段的输入形状变化更不规律,进一步降低了CUDA graph的适用性。 三个问题叠在一起,就是为什么prefill阶段到现在还没支持CUDA graph。
- 如何看待vllm-project vllm-ascend, vLLM原生支持华为昇腾?
vLLM Ascend即将在昇腾平台支持vLLM多个高阶特性,如请求调度算法chunked prefill,大模型分布式并行策略 TensorParallelism (TP)、Pipeline Parallelism (PP),投机解码speculativedecoding等,开源社区最新加速能力平滑迁移,支持昇腾平台高性能推理。
- 如何看待开源项目vLLM和 SGLang团队纷纷创立公司?商业化将给项目和Infra行业带来哪些影响?
vLLM PPT (Oct 5th, 2023) SGLang和vLLM早已不是单纯的预研项目,成为了大模型部署中的基础。 如今,仅靠热情和少量的资金,很难推动框架成为一款一流的AI产品。 所以,现在Core team们纷纷成立公司,大胆地走向资本市场。 这应该是 大基建下的必然。
- 有没有 vLLM SGLang 多机多卡部署详细教程? - 知乎
其中SGLang暂时不支持PP,支持多机跑TP,vLLM和TRT-LLM支持PP。 鉴于vLLM使用难度小,社区活跃,有问题基本能在issue捞到,本文选取vLLM框架来作为 R1 671B 多机部署案例,从源码编译开始,详细记录每一个步骤。
|
|
|