【visualcap.】ChatGPT はどの程度賢いのでしょうか?/2023 年 4 月 26 日

【visualcap.】

2023 年 4 月 26 日

人間の試験における ChatGPT のパフォーマンスの視覚化

OpenAI によって開発された言語モデルである ChatGPT は、さまざまな状況で人間のような応答を生成できるため、この 1 年間で非常に人気がありました。

実際、ChatGPT は非常に有能になっており、学生は宿題を助けるために ChatGPT を使用しています。このため、米国のいくつかの学区は、ネットワーク上でデバイスがモデルにアクセスすることをブロックするようになりました。

では、ChatGPT はどのくらい賢いのでしょうか?

OpenAI は、2023 年 3 月 27 日にリリースされた技術レポートで、GPT-4 として知られる最新モデルに関する包括的な概要を提供しました。このレポートには、上の図で視覚化した一連の試験結果が含まれています。

GPT-4 対 GPT-3.5

ChatGPT の機能をベンチマークするために、OpenAI はさまざまな専門試験および学術試験のテスト実行をシミュレートしました。これには、SAT、司法試験、およびさまざまな高度なプレースメント (AP) の最終試験が含まれます。

パフォーマンスはパーセンタイルで測定され、各試験タイプの受験者の最新のスコア分布に基づいていました。

パーセンタイルスコアは、他の人のパフォーマンスと比較して自分のパフォーマンスをランク付けする方法です。たとえば、テストで 60 パーセンタイルに入った場合、受験者の 60% よりも高い得点を獲得したことを意味します。

次の表に、グラフィックで視覚化した結果を示します。

カテゴリー	テスト	GPT-4 パーセンタイル	GPT-3.5 パーセンタイル
法	統一司法試験	90	10
法	LSAT	88	40
土	証拠に基づいた読み書き	93	87
土	数学	89	70
卒業記録試験 (GRE)	定量的	80	25
卒業記録試験 (GRE)	口頭で	99	63
卒業記録試験 (GRE)	書き込み	54	54
高度な配置 (AP)	生物学	85	62
高度な配置 (AP)	微積分	43	0
高度な配置 (AP)	化学	71	22
高度な配置 (AP)	物理学 2	66	30
高度な配置 (AP)	心理学	83	83
高度な配置 (AP)	統計	85	40
高度な配置 (AP)	英語	14	14
高度な配置 (AP)	英文学	8	8
競技プログラミング	コードフォースの評価	<5	<5

上記で報告されたスコアは、視覚入力が有効になっている GPT-4 に関するものです。より包括的な結果については、OpenAI の技術レポートを参照してください。

ご覧のとおり、GPT-4 (2023 年 3 月リリース) は、これらの試験の大部分において GPT-3.5 (2022 年 3 月リリース) よりもはるかに高い能力を備えています。しかし、AP 英語と競技プログラミングでは改善できませんでした。

AP English (および書面による回答が必要なその他の試験) に関しては、ChatGPT の提出物は「これらのエッセイを採点する関連する実務経験を持つ資格のある 1 ～ 2 人の第三者請負業者」によって採点されました。ChatGPT は確かに適切なエッセイを作成する能力がありますが、試験のプロンプトを理解するのに苦労した可能性があります。

競技プログラミングの場合、GPT は 10 の Codeforces コンテストにそれぞれ 100 回挑戦しました。Codeforces は、参加者が複雑な問題を解決する競技プログラミングコンテストを主催しています。GPT-4 の Codeforces の平均評価は 392 (5 パーセンタイル未満) ですが、1 つのコンテストでの最高評価は約 1,300 でした。Codeforces の評価ページを参照すると、最高得点のユーザーは中国のjianglyで、評価は 3,841 です。

GPT-4で何が変わったのか？

GPT-4 が GPT-3.5 に比べてユーザーエクスペリエンスを向上させたいくつかの領域を次に示します。

インターネットアクセスとプラグイン

GPT-3.5 の制限要因は、インターネットにアクセスできず、2021 年 6 月までのデータでしかトレーニングされなかったことです。

GPT-4 を使用すると、ユーザーは ChatGPT がインターネットにアクセスし、より最新の応答を提供し、より幅広いタスクを実行できるようにするさまざまなプラグインにアクセスできるようになります。これには、ChatGPT が休暇全体を予約できるようにする Expedia などのサービスのサードパーティプラグインが含まれます。

視覚的な入力

GPT-3.5 はテキスト入力のみを受け入れることができましたが、GPT-4 には画像を分析する機能もあります。ユーザーは、ChatGPT に写真の説明、グラフの分析、さらにはミームの説明を依頼することができます。

コンテキストの長さを長くする

最後に、GPT-4 は、はるかに大量のテキストを処理し、会話を長時間続けることができます。参考までに、GPT-3.5 の最大リクエスト値は 4,096 トークンで、これは約 3,000 ワードに相当します。GPT-4 には 2 つの亜種があり、1 つは 8,192 トークン (6,000 ワード) で、もう 1 つは 32,768 トークン (24,000 ワード) です。

ChatGPT ロゴ、Midjourney ロゴ、Bing ロゴ、Google Bard ロゴに囲まれた人型ロボットをフィーチャーした、AI と仕事の未来に関する特別派遣のプロモーション画像

人工知能が仕事の世界に与えている影響について詳しく知りたいですか? VC+ メンバーは、この特別なディスパッチだけでなく、VC+ コンテンツのアーカイブ全体にもアクセスできます。詳しくはこちらをご覧ください。

投稿者: okazaki-N
ニュース一覧, ◆経済・産業, ◆科学・技術

【visualcap.】アメリカの債務上限の上昇をグラ…前の記事

菅茶山の足跡を訪ねて（８）対潮楼からの眺め/2023年…次の記事

福山市議会議員岡崎まさずみ

ニュース

【visualcap.】ChatGPT はどの程度賢いのでしょうか?/2023 年 4 月 26 日

【visualcap.】

人間の試験における ChatGPT のパフォーマンスの視覚化

GPT-4 対 GPT-3.5

GPT-4で何が変わったのか？

インターネットアクセスとプラグイン

視覚的な入力

コンテキストの長さを長くする

ニュース関連記事

2022年度（令和4年度）上下水道事業の決算見込みの概要/2023年…

スポーツと音楽のクリスマスパーティー/2022年11月5日更新

【grapee】ゴミ箱からはみ出る袋を隠す方法！　簡単なのに「めっち…

『みのおきからの情報誌　～エコな風だより～』　バックナンバー一覧

地元の道の駅アリストぬまくまが、4月25日、国土交通省が実施する「ま…

【RCC】「チームラボ　福山城　光の祭」　福山市に売上金の一部を寄付…

サイト内検索〈下記欄へ入力〉

ニュース > 2011/9～月別アーカイブ

ニュース > カテゴリメニュー

【 FBでフォロー！】

誠友会

リンク一覧

岡崎まさずみ Official Web Site | みんなでつくろう福山の未来！

facebook

ニュース

【visualcap.】ChatGPT はどの程度賢いのでしょうか?/2023 年 4 月 26 日

【visualcap.】

人間の試験における ChatGPT のパフォーマンスの視覚化

GPT-4 対 GPT-3.5

GPT-4で何が変わったのか？

インターネットアクセスとプラグイン

視覚的な入力

コンテキストの長さを長くする

ニュース関連記事

サイト内検索〈下記欄へ入力〉

ニュース > 2011/9～月別アーカイブ

ニュース > カテゴリメニュー

【 FBでフォロー！ 】

誠友会

リンク一覧

facebook

【 FBでフォロー！】