原来大模型的api调用就是用https的post或get提供输入数据并获取返回值。这么看大模型的推理部分就作为互联网敏捷服务的一个厚重黑盒子服务了。这么看模型的推理云端和车端从技术框架是类似的,可能车端因为算力和算子的问题更复杂。我最近学习了一下ollama的源码想搞懂为啥他可以支持cpu和gpu,为啥支持mac amd 高通 Win...