FasterTransformer是针对Encoder和Decoder模型整体的优化方法,包括给Memory-Bound的Op做Kernel Fusion, KV-C...
FasterTransformer是NVIDIA已经弃用的Inference framework,目前所有的feature都被合并入TensorRT-LLM了。这些推...
Flash Attention 是一种新型的注意力机制算法,由斯坦福大学和纽约州立大学布法罗分校的科研团队共同开发,...