0xTodd🟥🟨🟦(@0x_Todd ):这个技术拿到币圈来讨论的话，可能缺一些上下文。首先，LoRA 是一种专用用于微调 AI 模型的技术。大家都知道现在 AI 模型都挺大的，动辄 100B 以上。有时候真的需要微调，但是重新训练的成本太高了。所以，大家就发明出了 LoRA 来微调，以节约成本，你可以把 LoRA 想象为一个适配器。（没错，这个 RA 必须大写，因为它的含义是 Low-Rank Adaptation ）后面大家发现，这个技术还有个别的妙用：就是让人能够在 1 台 GPU 里跑 N 个大模型（正常操作是不可能的）。它绕开的思路就是，先安装 1 个基础的大模型，然后再安装多个 LoRA（微调）。这样的话，等于一个机器里，你想用什么模型的时候，你就临时开启什么微调，比如专门做法律领域的 AI 或者变成定向做医疗的 AI 且不用重新训练。这就是开放式 LoRA 的架构，也就是 OpenLoRA 架构。架构上理论可以支持上千个 LoRA，原理是一致的：1 个基础模型 + 1000 个微调思路。正在使用的 LoRA 在 GPU 备用的 LoRA 在 CPU 然后其他基本不太用的 LoRA 就放硬盘里这样，就实现了在 1 个 GPU 跑上千个大模型。

2025.04.16 08:17

这个技术拿到币圈来讨论的话，可能缺一些上下文。首先，LoRA 是一种专用用于微调 AI 模型的技术。大家都知道现在 AI 模型都挺大的，动辄 100B 以上。有时候真的需要微调，但是重新训练的成本太高了。所以，大家就发明出了 LoRA 来微调，以节约成本，你可以把 LoRA 想象为一个适配器。（没错，这个 RA 必须大写，因为它的含义是 Low-Rank Adaptation ）后面大家发现，这个技术还有个别的妙用：就是让人能够在 1 台 GPU 里跑 N 个大模型（正常操作是不可能的）。它绕开的思路就是，先安装 1 个基础的大模型，然后再安装多个 LoRA（微调）。这样的话，等于一个机器里，你想用什么模型的时候，你就临时开启什么微调，比如专门做法律领域的 AI 或者变成定向做医疗的 AI 且不用重新训练。这就是开放式 LoRA 的架构，也就是 OpenLoRA 架构。架构上理论可以支持上千个 LoRA，原理是一致的：1 个基础模型 + 1000 个微调思路。正在使用的 LoRA 在 GPU 备用的 LoRA 在 CPU 然后其他基本不太用的 LoRA 就放硬盘里这样，就实现了在 1 个 GPU 跑上千个大模型。

Openledger@OpenledgerHQ

2025.04.10 18:32

OpenLora is the designated deployment engine for specialized models in the OpenLedger ecosystem. By leveraging just-in-time adapter switching, OpenLora enables the efficient serving of thousands of fine-tuned LoRA adapters on a single GPU, drastically reducing deployment costs. Unlike generic models, OpenLora-powered specialized models require fewer input tokens and produce more optimized, precise outputs - minimizing both input and output token size while delivering task-specific performance at scale. Faster, Smarter, and Specialized.