马斯克的X AI用的推理框架是什么？

2024-08-28 23:25:35

312

ai 马斯克 X

最近马斯克的x平台上有个消息特别有意思。就是马斯克的AI-Grok有了个变动，大家觉得Grok2-mini变得比以前快多了。

可以看到这个处理速度相当可以了。但是人家还诚实的说出了原因，这不得不让人佩服了。

这里很明确的提到了SGlang这个开源框架。仅仅通过使用它，两个人仅三天的工作，就能把Grok原来的推理能力加速2倍，这是一个多么神奇的工作呢？那必须要好好研究一下这个SGlang啊。
它来源于这篇论文：https://arxiv.org/abs/2312.07104 基本上作者都是来自全球顶级名校的：Stanford、 UC Berkeley、上交、Texas A&M 、及一位独立研究学者。
首先看看怎么使用吧，我一般太难使用的就不要了。
安装难度：易，直接pip安装完成。

使用方法：一句话完成服务：

你可以直接curl请求它

这样，你就能在8888端口直接提供一个llm服务了。要不要太简单了。
就它还兼容openai的api接口。
支持的模型现在也不算少了：
Llama / Llama 2 / Llama 3 / Llama 3.1
Mistral / Mixtral / Mistral NeMo
Gemma / Gemma 2
Qwen / Qwen 2 / Qwen 2 MoE
DeepSeek / DeepSeek 2
LLaVA-OneVision
LLaVA 1.5 / 1.6 / NeXT
Yi-VL
StableLM
Command-R
DBRX
Grok
ChatGLM
InternLM 2
是不是比你想象的多？
性能比较：明显与直接使用TensorRT写的LLM差不多，但是难易程度不是一个级别的

实际上呢，这篇工作也非常的出色：
这个叫SGLang的新系统，非常精准的找到了定位：它专为高效执行复杂的大语言模型（LLM）程序而设计。
随着大语言模型的能力不断提升，LLM被应用于越来越复杂的任务中，如多轮推理、规划、与外部环境的交互等。但当前的系统在编程和执行这些复杂任务时效率较低，这正是SGLang要解决的问题。
它的改善主要在正面几点：
1.前端语言：SGLang提供了一种简化编程的前端语言，内置了生成和并行控制的基本操作。这使得开发者可以更轻松地编写复杂的LLM任务程序，例如需要多次调用模型、处理控制流、以及处理结构化输入和输出的任务。
2.运行时优化：
    • RadixAttention：这项技术可以在多次调用生成过程中重复利用关键-值（KV）缓存，从而提高内存利用效率，减少不必要的计算。
    • 压缩有限状态机：该方法加速了结构化输出（如JSON格式）的解码过程，允许一次性解码多个token，从而提高了速度。
    • API预测执行：针对像OpenAI的GPT-4这样只能通过API访问的模型，这项技术通过预测和预先执行可能的输出来优化多次调用程序，从而减少延迟和API使用成本。
表现吧，大家也从视频，还有上面的图表中看到了，相当惊艳！不说一骑绝尘，至少能比得上它的还是很少的。再加上这次对Grok的优化，那可以说一下就杀到了工业界了。
实际上呢，SGLang已被应用于多种LLM应用场景，包括：
    •    代理控制：管理自主代理与LLM的交互。
    •    逻辑推理：处理需要结构化输出的复杂推理任务。
    •    少样本学习：在有限样本情况下进行预测的基准测试。
    •    JSON解码：高效解析结构化输出。
    •    多轮对话：处理聊天机器人中的多轮对话。

登录才可参与讨论