如果一個 Chatbot 有極大量的使用者,又串接了自己訓練的NLP Model,那麼 back-end service 同時要 inference 這麼多使用者的自然語言,想必會是一個瓶頸。為了解決這類的問題,Nividia 推出了一套開源的 inference server 工具,Triton,可以在 GPU 或 CPU 上部署模型,將 GPU/CPU 利用率最大化,以達到更快速的 inference。
本次演講會介紹 Triton Inference Server,並且透過實際範例將 NLP Model 部署進去 Triton。
About Ko Ko
Microsoft AI MVP,一直致力於分享 AI 與 Chatbot 相關的技術。曾於許多大型研討會擔任講者,包含 COSCUP、.NET CONF、台灣人工智慧學校年會等,也是 Chatbot 社群的核心成員。