Perplexity(@perplexity_ai):We’ve developed our own inference engine Runtime-Optimized Serving Engine (ROSE) to serve models ranging from embeddings to trillion-parameter LLMs. With CuTeDSL integrated into our inference engine, Perplexity can build the specialized GPU kernels faster to bring models up to peak performance on NVIDIA Hopper and Blackwell GPUs.

Perplexity

@perplexity_ai

Curiosity changes everything. Download our free app on iOS, Mac, Windows, and Android.

加入 December 2022

76 正在關注 487.9K 粉絲

Perplexity@perplexity_ai

2026.05.06 15:04

We’ve developed our own inference engine Runtime-Optimized Serving Engine (ROSE) to serve models ranging from embeddings to trillion-parameter LLMs. With CuTeDSL integrated into our inference engine, Perplexity can build the specialized GPU kernels faster to bring models up to peak performance on NVIDIA Hopper and Blackwell GPUs.