【ascii】
2023年06月23日
Microsoft ResearchのAI研究チームは6月20日(現地時間)、わずか13億パラメーターと従来のものよりもサイズが小さいにも関わらず「GPT-3.5(1750億パラメーター)」を上回る成績を収めたTransformerベースの大規模言語モデル「phi-1」を発表した。このモデルは間もなく「Hugging Face」で公開される予定だといいう。
ベンチマークでGPT-3.5を凌駕
「Textbooks Are All You Need」と題された研究論文によると、このモデルは8台のA100(NVIDIAの高性能GPU)でわずか4日間かけて訓練され、インターネット上から取得した60億トークンの「教科書品質」データセットと、GPT-3.5で生成した10億トークンの微調整用「練習問題」データセットが使用された。
サイズが小さいにもかかわらず、phi-1はLLMの性能を測定するためのベンチマーク「HumanEval」で50.6%、「MBPP」で55.5%を達成した。この数値は無料版ChatGPTの心臓部であるGPT3.5のHumanEval47%を上回っている。
また、phi-1と同手法で訓練された3億5千万パラメーターの「phi-1-small」モデルもHumanEvalで45%を達成している。
量から質へのパラダイムシフト
Transformerアーキテクチャーの発見以降、大規模ニューラルネットワークを訓練する技術は驚異的な進歩を遂げてきたが、その仕組にはまだブラックボックスとなっている部分が多い。
計算量またはネットワークのサイズを極端に大きくすると性能が有意に向上する「スケーリング法則」と呼ばれる現象もその1つだ。
この法則のもと、大規模言語モデルの大型化が進んできたわけだが、大型化したモデルを訓練するには莫大なコンピューターリソースが必要となるため、予算の潤沢ではないスタートアップの参入が難しいという弊害がある。
そこで考えられたのが、モデルのサイズを大きくする代わりに、データの質を向上させることでモデルのパフォーマンスを向上させるというアプローチだ。
例えば、データクリーニングはデータセット作成の重要な部分であり、データセットが多少小さくなったり、データに対してより多くのパスができるようになったりといった副次的な利点もある。
phi-1はインターネット上から取得した「教科書品質」のデータセットと、GPT-3.5で生成した微調整用「練習問題」データセットを使用することでデータの質を向上させ、モデルのパフォーマンスを向上することに成功した。
この結果、LLM研究のパラダイムシフトが起こり、モデルのスケールではなく、アーキテクチャーやトレーニング手法により焦点が当てられるようになるかもしれないと論文は指摘している。よしんばそうならなかったとしてもサイズの小さいモデルは研究コストを間違いなく大幅に削減できるのだ。