NVIDIAは、2023年8月8日、NVIDIA AI Workbenchを発表しました。これは、開発者が事前学習済みの生成AIモデルを迅速に作成、テスト、カスタマイズし、それをほぼ任意のデータセンター、パブリッククラウド、またはNVIDIA DGX™ Cloudにスケールする能力を持つ統合された使いやすいツールキットです。AI Workbenchは、エンタープライズAIプロジェクトの開始の複雑さを取り除きます。ローカルシステムでの簡易化されたインターフェースを介して、開発者はHugging Face、GitHub、NVIDIA NGCなどの人気のあるリポジトリからモデルをカスタマイズすることができます。そして、これらのモデルは複数のプラットフォームで簡単に共有することができます。
さらに、NVIDIAはエンタープライズソフトウェアプラットフォームの最新バージョン、NVIDIA AI Enterprise 4.0を発表しました。これにより、企業は生成AIの採用を加速させるためのツールを取得することができます。また、信頼性の高いプロダクション展開に必要なセキュリティとAPIの安定性も提供されます。この新しいバージョンには、NVIDIA NeMoやNVIDIA Triton Management Serviceなどの新しいソフトウェアとツールがサポートされており、生成AIの展開を効率的に行うためのサポートが強化されています。
これらの新しいツールとプラットフォームは、企業がAI技術をより効果的に活用し、ビジネスの成果を最大化するための強力な手段を提供します。
NVIDIA NeMoとは
NVIDIA NeMoは、開発者が数十億のパラメータを持つ生成AIモデルを構築、カスタマイズ、デプロイするためのエンドツーエンドのクラウドネイティブエンタープライズフレームワークです。これは、新たな最先端の会話型AIモデルを構築するためのツールキットで、共同意図とスロット分類、機械翻訳などの異なるタスクに対して別々のコレクションを持っています。NeMoは、オープンソースソフトウェアの潜在的なリスクなしにAIの最先端への成功の道を企業に提供するNVIDIA AI Enterpriseの一部として利用可能です。
NeMo Large Language Model (LLM) Cloud Serviceは、テキストの要約、創造的なライティング、チャットボットなどのタスクに対して大規模な言語モデル(LLM)を使用し、カスタマイズすることをユーザーに可能にするサービスです。NVIDIAは、LLMへのアクセスを簡易化するための2つのサービス、NeMo LLMとBioNeMoを発表しました。NeMo LLMサービスは、基礎となるLLMをカスタマイズし、それらをNVIDIAのマネージドクラウドAPIを利用してスケールするための最速のパスを提供します。一方、NVIDIA BioNeMoサービスは、LLMの使用ケースを言語を超えて科学的なアプリケーションに拡大し、製薬会社とバイオテクノロジー会社のための新薬開発を加速するクラウドAPIです。
NVIDIA Triton Management Serviceとは
NVIDIA Triton Management Service(TMS)は、複数のTritonサーバーのデプロイメントと管理を自動化することでAI推論を簡素化するソフトウェアです。これは、AIモデルのデプロイメントと実行を標準化し、生産環境での高速かつスケーラブルなAIを提供するオープンソースの推論サーバーソフトウェアであるTriton Inference Serverの一部です。TMSは、Kubernetesでの複数のTriton Inference Serverインスタンスのデプロイメントを自動化するソフトウェアアプリケーションサービスであるManagement Serviceという新機能を提供します。TMSの主な特徴には以下のようなものがあります:
- モデルオーケストレーション:TMSは、モデルのTriton Inference Serverインスタンスへの割り当て、個々のGPU/CPUへのモデルの割り当て、および異なるフレームワークからのモデルの効率的な配置を管理します。
- 効率的なリソース利用:TMSは、可能な場合には既に稼働しているTritonインスタンスにモデルをロードすることで不必要なTriton Inference Serverインスタンスを回避し、複数のモデルが同じTritonインスタンスを単一のポッド内で共有することを可能にしてGPUの利用をより効率的にし、使用されていないモデルをアンロードします。
- 複数のフレームワークのサポート:Tritonは、TensorFlow、PyTorch、TensorRT、XGBoost、ONNX、OpenVINO、Python、さらにはカスタムフレームワークを含むすべての主要なモデルフレームワークをGPUとCPUシステム上でサポートします。
TMSは、x86とArmのCPU、NVIDIAのGPU、AWS Inferentiaでモデルを実行するために使用できます。複数のフレームワークをサポートし、任意のアプリケーション、デプロイメントツール、プラットフォームと統合でき、クラウド、オンプレミス、エッジで使用できます。Tritonを使用している企業には、オンライン投資管理会社、テンセント、Microsoft Azure Cognitive Services、Siemens Energyなどがあります。
(了)
※この記事は生成AIを活用して執筆しました