【visualcap.】
2023 年 4 月 26 日
人間の試験における ChatGPT のパフォーマンスの視覚化
OpenAI によって開発された言語モデルである ChatGPT は、さまざまな状況で人間のような応答を生成できるため、この 1 年間で非常に人気がありました。
実際、ChatGPT は非常に有能になっており、学生は宿題を助けるために ChatGPT を使用しています。このため、米国のいくつかの学区は、ネットワーク上でデバイスがモデルにアクセスすることをブロックするようになりました。
では、ChatGPT はどのくらい賢いのでしょうか?
OpenAI は、2023 年 3 月 27 日にリリースされた技術レポートで、GPT-4 として知られる最新モデルに関する包括的な概要を提供しました。このレポートには、上の図で視覚化した一連の試験結果が含まれています。
GPT-4 対 GPT-3.5
ChatGPT の機能をベンチマークするために、OpenAI はさまざまな専門試験および学術試験のテスト実行をシミュレートしました。これには、SAT、司法試験、およびさまざまな高度なプレースメント (AP) の最終試験が含まれます。
パフォーマンスはパーセンタイルで測定され、各試験タイプの受験者の最新のスコア分布に基づいていました。
パーセンタイルスコアは、他の人のパフォーマンスと比較して自分のパフォーマンスをランク付けする方法です。たとえば、テストで 60 パーセンタイルに入った場合、受験者の 60% よりも高い得点を獲得したことを意味します。
次の表に、グラフィックで視覚化した結果を示します。
上記で報告されたスコアは、視覚入力が有効になっている GPT-4 に関するものです。より包括的な結果については、OpenAI の技術レポートを参照してください。
ご覧のとおり、GPT-4 (2023 年 3 月リリース) は、これらの試験の大部分において GPT-3.5 (2022 年 3 月リリース) よりもはるかに高い能力を備えています。しかし、AP 英語と競技プログラミングでは改善できませんでした。
AP English (および書面による回答が必要なその他の試験) に関しては、ChatGPT の提出物は「これらのエッセイを採点する関連する実務経験を持つ資格のある 1 ~ 2 人の第三者請負業者」によって採点されました。ChatGPT は確かに適切なエッセイを作成する能力がありますが、試験のプロンプトを理解するのに苦労した可能性があります。
競技プログラミングの場合、GPT は 10 の Codeforces コンテストにそれぞれ 100 回挑戦しました。Codeforces は、参加者が複雑な問題を解決する競技プログラミング コンテストを主催しています。GPT-4 の Codeforces の平均評価は 392 (5 パーセンタイル未満) ですが、1 つのコンテストでの最高評価は約 1,300 でした。Codeforces の評価ページを参照すると、最高得点のユーザーは中国のjianglyで、評価は 3,841 です。
GPT-4で何が変わったのか?
GPT-4 が GPT-3.5 に比べてユーザー エクスペリエンスを向上させたいくつかの領域を次に示します。
インターネットアクセスとプラグイン
GPT-3.5 の制限要因は、インターネットにアクセスできず、2021 年 6 月までのデータでしかトレーニングされなかったことです。
GPT-4 を使用すると、ユーザーは ChatGPT がインターネットにアクセスし、より最新の応答を提供し、より幅広いタスクを実行できるようにするさまざまなプラグインにアクセスできるようになります。これには、ChatGPT が休暇全体を予約できるようにする Expedia などのサービスのサードパーティ プラグインが含まれます。
視覚的な入力
GPT-3.5 はテキスト入力のみを受け入れることができましたが、GPT-4 には画像を分析する機能もあります。ユーザーは、ChatGPT に写真の説明、グラフの分析、さらにはミームの説明を依頼することができます。
コンテキストの長さを長くする
最後に、GPT-4 は、はるかに大量のテキストを処理し、会話を長時間続けることができます。参考までに、GPT-3.5 の最大リクエスト値は 4,096 トークンで、これは約 3,000 ワードに相当します。GPT-4 には 2 つの亜種があり、1 つは 8,192 トークン (6,000 ワード) で、もう 1 つは 32,768 トークン (24,000 ワード) です。
人工知能が仕事の世界に与えている影響について詳しく知りたいですか? VC+ メンバーは、この特別なディスパッチだけでなく、VC+ コンテンツのアーカイブ全体にもアクセスできます。詳しくはこちらをご覧ください。 |