马斯克的X AI用的推理框架是什么?

2024-08-28 23:25:35
0
128

最近马斯克的x平台上有个消息特别有意思。就是马斯克的AI-Grok有了个变动,大家觉得Grok2-mini变得比以前快多了。



可以看到这个处理速度相当可以了。但是人家还诚实的说出了原因,这不得不让人佩服了。



这里很明确的提到了SGlang这个开源框架。仅仅通过使用它,两个人仅三天的工作,就能把Grok原来的推理能力加速2倍,这是一个多么神奇的工作呢?那必须要好好研究一下这个SGlang啊。
它来源于这篇论文:https://arxiv.org/abs/2312.07104 基本上作者都是来自全球顶级名校的:Stanford、 UC Berkeley、上交、Texas A&M 、及一位独立研究学者。
首先看看怎么使用吧,我一般太难使用的就不要了。
安装难度:易,直接pip安装完成。


使用方法:一句话完成服务:



你可以直接curl请求它



这样,你就能在8888端口直接提供一个llm服务了。要不要太简单了。
就它还兼容openai的api接口。
支持的模型现在也不算少了:
Llama / Llama 2 / Llama 3 / Llama 3.1
Mistral / Mixtral / Mistral NeMo
Gemma / Gemma 2
Qwen / Qwen 2 / Qwen 2 MoE
DeepSeek / DeepSeek 2
LLaVA-OneVision
LLaVA 1.5 / 1.6 / NeXT
Yi-VL
StableLM
Command-R
DBRX
Grok
ChatGLM
InternLM 2
是不是比你想象的多?
性能比较:明显与直接使用TensorRT写的LLM差不多,但是难易程度不是一个级别的



实际上呢,这篇工作也非常的出色:
这个叫SGLang的新系统,非常精准的找到了定位:它专为高效执行复杂的大语言模型(LLM)程序而设计。
随着大语言模型的能力不断提升,LLM被应用于越来越复杂的任务中,如多轮推理、规划、与外部环境的交互等。但当前的系统在编程和执行这些复杂任务时效率较低,这正是SGLang要解决的问题。
它的改善主要在正面几点:
1.前端语言:SGLang提供了一种简化编程的前端语言,内置了生成和并行控制的基本操作。这使得开发者可以更轻松地编写复杂的LLM任务程序,例如需要多次调用模型、处理控制流、以及处理结构化输入和输出的任务。
2.运行时优化:
    • RadixAttention:这项技术可以在多次调用生成过程中重复利用关键-值(KV)缓存,从而提高内存利用效率,减少不必要的计算。
    • 压缩有限状态机:该方法加速了结构化输出(如JSON格式)的解码过程,允许一次性解码多个token,从而提高了速度。
    • API预测执行:针对像OpenAI的GPT-4这样只能通过API访问的模型,这项技术通过预测和预先执行可能的输出来优化多次调用程序,从而减少延迟和API使用成本。
表现吧,大家也从视频,还有上面的图表中看到了,相当惊艳!不说一骑绝尘,至少能比得上它的还是很少的。再加上这次对Grok的优化,那可以说一下就杀到了工业界了。
实际上呢,SGLang已被应用于多种LLM应用场景,包括:
    •    代理控制:管理自主代理与LLM的交互。
    •    逻辑推理:处理需要结构化输出的复杂推理任务。
    •    少样本学习:在有限样本情况下进行预测的基准测试。
    •    JSON解码:高效解析结构化输出。
    •    多轮对话:处理聊天机器人中的多轮对话。

评论
登录 才可参与讨论