GPT-3XL 1.3BGPT-J 6BGPT-3 13BGPT-NeoX 20Bなどの数十億パラメータNLPモデルの学習を1台のCS-2で実現 - 容易な設定、高速な学習、簡単な操作でモデル切替えを可能に

カリフォルニア州サニーベール--(BUSINESS WIRE)--(ビジネスワイヤ) --高性能人工知能(AI)コンピューティングのパイオニアであるCerebras Systemsは、本日、他の単一デバイスでは不可能な、1台のCS-2システムで最大200億パラメータのモデルをトレーニングできる能力を初めて発表しました。Cerebrasは、1台のCS-2でこれらのモデルの学習を可能にすることで、大規模な自然言語処理(NLP)モデルの実行に必要なシステム・エンジニアリング時間を、数か月から数分に短縮します。また、NLPの最も困難な側面の1つである、数百または数千の小型グラフィック・プロセッシング・ユニット(GPU)に対するモデルの分割も不要になります。


「自然言語処理では、より大きなモデルがより正確であることが示されています。しかし従来、このような大規模なモデルを分割し、何百、何千ものグラフィック・プロセッシング・ユニットに分散させるという骨の折れる作業を行うのに必要なリソースと専門知識を持つ企業は、ごく限られていました。その結果、大規模なNLPモデルをトレーニングできる企業はごくわずかで、他の企業にとっては、コストがかかりすぎ、時間がかかり、アクセスしにくいものでした。今日、私たちはGPT-3XL 1.3B、GPT-J 6B、GPT-3 13B、GPT-NeoX 20Bへのアクセスを民主化し、AIエコシステム全体が数分で大規模モデルをセットアップして、1台のCS-2でトレーニングできるようになったことを誇りに思っています」と、 Cerebras SystemsのCEO兼共同創設者のアンドリュー・フェルドマンは述べています。

GSKの人工知能・機械学習担当上級副社長であるキム・ブランソンは、「GSKはゲノム・遺伝子研究を通じて非常に大きなデータセットを生成しますが、これらのデータセットには機械学習を行うための新しい装置が必要です。Cerebras CS-2は、GSKがこれまで実現できなかった規模とサイズの生物学的データセットを使用して言語モデルをトレーニングするために不可欠なコンポーネントです。 これらの基礎となるモデルは、当社の多くのAIシステムの基礎を形成し、革新的な医薬品の発見において重要な役割を果たします」と、述べています。

これらの世界初の機能は、CerebrasのWafer Scale Engine-2 (WSE-2)のサイズと計算リソース、およびCerebras Software Platform (CSoft)のバージョンR1.4で提供されるWeight Streamingソフトウェアのアーキテクチャ拡張によって実現されています。

モデルが単一プロセッサに収まる場合、AIのトレーニングは難しくありません。しかし、モデルのパラメータがメモリに収まらないほど多くなったり、レイヤーが1つのプロセッサで処理できる以上の計算を必要としたりすると、複雑さは爆発的に増大します。この場合、モデルを分割し、数百、数千のGPUに分散させなければなりません。このプロセスは大変なもので、完了までに数カ月かかることもしばしばです。さらに悪いことに、このプロセスは各ネットワーク計算クラスタのペアに固有であるため、異なる計算クラスタやニューラルネットワーク間で作業を移植することはできず、完全にオーダーメイド となります。

Cerebras WSE-2は、これまで作られた中で最大のプロセッサーです。その大きさは最大級のGPUの56倍、トランジスタの数は2兆5500億個、演算コアの数は100倍にもなります。WSE-2のサイズと計算リソースにより、最大規模のニューラルネットワークの各層を収めることができます。CerebrasのWeight Streamingアーキテクチャは、メモリと演算を分離することで、パラメータを格納するメモリと演算を別々に成長させることが可能です。そのため、1台のCS-2で数千億から数兆のパラメータを持つモデルをサポートすることができます。

一方、グラフィックプロセッサーは、1GPUあたりのメモリ容量が決まっています。もし、モデルがメモリに収まらないほどのパラメータを必要とするならば、より多くのグラフィックプロセッサを購入し、複数のGPUに作業を分散させる必要があります。その結果、複雑さが爆発的に増大します。Cerebrasのソリューションは、よりシンプルでスマートです。メモリから計算を分離することで、Weight Streamingアーキテクチャーは、1つのCS-2で任意の数のパラメータを持つモデルを実行することを可能にします。

Cerebrasは、WSE-2の計算能力とWeight Streamingアーキテクチャーの優位性により、最大規模のNLPネットワークを1つのシステムでサポートすることができます。1台のCS-2でこれらのネットワークをサポートすることにより、Cerebrasはセットアップ時間を数分に短縮し、モデルのポータビリティを実現します。例えば、GPT-JとGPT-Neoの切り替えは、数百のGPUで構成されるクラスタでは数ヶ月のエンジニアリング時間を要する作業ですが、数回のキー入力で切替えが可能です。

Cerebrasの能力が、大規模な言語モデルのコストを効率よく、簡単に利用できるようにすることで、AIの新時代を切り開きます。Intersect360 Researchの最高研究責任者であるダン・オールズは、「数千万ドルを費やすことができない組織にも、メジャーリーグNLPへの容易で安価な参入手段を提供します。CS-2のお客様が膨大なデータセットでGPT-3やGPT-Jクラスのモデルを訓練することで、新しいアプリケーションや発見があるのは興味深いことです」と、述べています。

Cerebrasは、北米、アジア、ヨーロッパ、中東に顧客を持ち、グラクソ・スミスクラインアストラゼネカTotalEnergiesnferenceアルゴンヌ国立研究所ローレンス・リバモア国立研究所ピッツバーグ・スーパーコンピューティングセンターライプニッツ・スーパーコンピューティング・センター国立スーパーコンピュータ応用研究所エディンバラ・パレルコンピューティングセンター東京エレクトロン デバイスなど、企業、政府、高性能コンピューティング分野で増え続ける顧客に業界トップのAIソリューションを提供しています。

Cerebrasのソフトウェアプラットフォームの詳細についは https://www.cerebras.net/product-software/ をご覧下さい。

Cerebras Systemsについて

セレブラス・システムズは、先駆的なコンピューター・アーキテクト、コンピューター科学者、ディープラーニングの研究者、あらゆるタイプのエンジニアからなるチームです。私たちは、AIを加速させ、AIワークの未来を永久に変えるという唯一の目的のために、新しいクラスのコンピューターシステムを構築するために集まりました。当社の主力製品であるCS-2システムは、世界最大のプロセッサーである85万コアのCerebras WSE-2を搭載しており、お客様のディープラーニング作業をグラフィックスプロセッシングユニットよりも数桁も高速化することを可能にします。

本記者発表文の公式バージョンはオリジナル言語版です。翻訳言語版は、読者の便宜を図る目的で提供されたものであり、法的効力を持ちません。翻訳言語版を資料としてご利用になる際には、法的効力を有する唯一のバージョンであるオリジナル言語版と照らし合わせて頂くようお願い致します。


Contacts

メディアお問合せ先
Kim Ziesemer
pr@zmcommunications.com

情報提供元: ビジネスワイヤ
記事名:「 Cerebras Systems、単一デバイスで学習させた最大規模のAIモデルで記録を達成