2022年11月に登場したAIチャットサービス「ChatGPT」。このチャットAIの屋台骨となっているのがGPT−3.5と呼ばれる大規模言語モデルだ。

2023年3月14日、GPT−3.5の後継モデルGPT-4がChatGPTの有料ユーザーに開放された。

これまでGPT-4に関する様々な憶測が流れていたが、実際リリースされてからのメディアやユーザーの反応は、概ねポジティブなものとなっている。

ChatGPTのベースモデルであるGPT−3.5と、新たに登場したGPT-4はどのような点で異なるのか探ってみたい。

微積分が得意になったGPT-4

結論からいうと、GPT-4は、GPT−3.5に比べ、数学、化学、法律、経済学、多言語能力、コーディング分野の精度が向上したモデルとなる。また、画像をインプットできる点もGPT−3.5との大きな違いだ。各分野で、どれほど精度が改善されたのかみていきたい。

各GPTモデルの数学能力を測る指標の1つとして用いられているのが、高校〜大学レベルの微積分の習熟度を測る試験「AP Calculus BC」だ。米国の教育非営利団体College Boardが実施している共通テストで、GPT開発ではほかにもCollege Boardの歴史、経済学、化学などのテストが用いられている。

数学の試験範囲は、極限、導関数、積分などの基本項目に加え、部分積部、テイラー級数、パラメトリック方程式、ベクトル微積分、極座標関数などの応用項目を含み、正答数に応じ1〜5段階のスコアが与えられる。

GPT-3.5がこの試験で得たスコアが1だったのに対し、GPT-4は4を獲得。高校〜大学レベルの微積分に関しては、大幅に精度が向上したことが示されているのだ。

College Boardの試験では、このほかにも、化学、マクロ経済学、統計で顕著な改善が観察された。化学のスコアは、GPT-3.5が2だったのに対し、GPT-4は4を獲得。マクロ経済学では、GPT-3.5が2、GPT-4が5、統計では、GPT-3.5が3、GPT-4が5とともにトップスコアを獲得している。

司法試験でトップ10%のスコアを獲得したGPT-4

数学や化学と並びGPT-4が大きな改善を見せたのが法律分野の精度だ。

GPTモデルの法律に関する精度を測定するのに用いられているのが、米国の共通司法試験「Uniform Bar Exam」。この共通司法試験の最大スコアは400点。多くの州では、合格するには260〜270点ほどが必要とされる

この司法試験におけるGPT−3.5の点数は213点と、受験者の下位10%に相当するものだった(合格点に達していない)。一方GPT−4は、298点と概ね上位10%に相当する点数を獲得、点数的には米国で弁護士をできる水準に達したことが開発ドキュメントに示されているのだ。

司法試験に関しては、司法を専門とする第三者による検証も実施されているが、そこでもGPT-4が司法試験を突破できることが確認された。

司法分野の研究者ダニエル・カッツ氏とマイケル・ボマリート氏による分析によると、GPT-4は、共通司法試験の多肢選択式パートだけでなく、筆記パートでも合格点を獲得できることが判明。また、実際の受験者の平均点を超える精度で有ることも明らかになった。

コーディング精度も向上

GPT−4では、コーディング精度においても、一定の改善が見られる。

コーディング精度の測定では、LeetCodeによるコーディング問題集が用いられている。

LeetCodeは、GAFAFなどテック企業への就職・転職準備の一環で利用する人が多いコーディング学習ウェブサイト。GPT開発では、「easy」「medium」「hard」の難易度別の問題により、各モデルのコーディング能力が測定された。

GPT3.5は、easyで41ポイント中12ポイント、mediumで80ポイント中8ポイント、hardで45ポイント中ゼロと、easyなコーディング問題でもその精度は3分の1以下にとどまった。

一方GPT-4は、easyで31ポイント、mediumで21ポイント、hardで3ポイントを獲得。複雑なコーディング問題には依然対応できないものの、easy水準の問題に対する精度は、3倍近く向上したことになる。

複数言語の理解力もアップ

GPT-4は、英語はもとより、他の複数言語における理解力向上もみられる。

この言語パフォーマンス測定では、57分野1万4000問で構成される多肢選択式問題を各言語に訳したものがそれぞれのGPTモデルに与えられ、その正答率が計算された。

GPT-3.5が英語で答えた正答率は、70.1%だった。

一方GPT-4は、26言語で回答したが、このうち24言語において、GPT-3.5の英語での正答率を上回った。

最も精度が高かったのは英語で、正答率は85.5%。次いで、イタリア語が84.1%、アフリカーンス語が84.1%、スペイン語が84%、ドイツ語が83.7%、フランス語が83.6%、インドネシア語が83.1%などとなった。日本語も79.9%と英語版GPT-3.5を10ポイント近く上回る精度を示した。

現在GPT-4開発の一環で、画像からキャプションを生成したり、グラフ画像を分析するなど、インプットされた画像に対し、テキストでアウトプットを行う機能がリサーチプレビュー版として限定公開されている。GPT-4の真価が分かるのはまだ少し先になりそうだ。

文:細谷元(Livit