of models Llama Qwen Mistral DeepSeek Gemma Phi Molmo Granite Nemotron Validated models ▸ 現実のユースケースに即したシナリオでのテスト ▸ 様々なアクセラレーターでのパフォーマンス計測 ▸ GuideLLM, LM Eval Harnessによるベンチマーキング Optimized models ▸ 量⼦化による⾼速化と効率化 ▸ 精度を維持したままより少ないリソースでAIモデルを実⾏ ▸ 最新の研究に基づく量⼦化アルゴリズムの適⽤ Choice of Models ▸ Transformers (Dense, MoE), マルチモーダルLLM, エンべディング, Hybrid / Novel Attention, Vision ▸ Hugging Face compatible (safe tensors), OCI互換コンテナ Fast, flexible and scalable inference