【visualcapitalist】AI と人間: 特定のスキルをより優れて実行できるのはどちらですか?/2023 年 8 月 25 日

【visualcapitalist】

2023 年 8 月 25 日

マーク・ベラン

記事・編集：

パラヴィ・ラオ

AI と人間: 特定のスキルをより優れて実行できるのはどちらですか?

ChatGPT の爆発的な台頭により、AI は、特に読解、音声認識、画像識別といった従来の人間の能力の要塞において、大衆にその存在感を示すようになりました。

実際、上のグラフを見ると、AI がかなりの分野で人間のパフォーマンスを上回っていることは明らかであり、他の分野でも人間を追い越すことになりそうです。

パフォーマンスのテスト方法

Contextual AIのデータを使用して、AI モデルがどのくらいの速さでデータベースベンチマークを上回り始めたか、また AI モデルがまだ人間のレベルのスキルに達しているかどうかを視覚化します。

各データベースは、手書き認識、言語理解、読解などの特定のスキルを中心に考案されており、各パーセンテージスコアは次のベンチマークと対照的です。

0% または「最大限のパフォーマンスのベースライン」
これは、データセット作成時の AI による最もよく知られているパフォーマンスと同じです。
100%
このマークは、データセットに対する人間のパフォーマンスと同等です。

これら 2 つのポイントの間にスケールを作成することで、各データセットの AI モデルの進行状況を追跡できます。直線上の各点は最良の結果を示しており、直線が上向きになるにつれて、AI モデルは人間のパフォーマンスに一致するものにどんどん近づきます。

以下は、AI が 8 つのスキルすべてにわたって人間のパフォーマンスを照合し始めた時期の表です。

スキル	人間のパフォーマンスにマッチ	使用されるデータベース
手書き認識	2018年	MNIST
音声認識	2017年	配電盤
画像認識	2015年	イメージネット
読解	2018年	スクワッド 1.1、2.0
言語理解	2020年	のり
常識の完成	2023年	ヘラスワッグ
小学校の数学	該当なし	GSK8k
コード生成	該当なし	HumanEval

このグラフから分かる重要な点は、 2010 年以降にどれだけの進歩があったかということです。実際、SQuAD、GLUE、HellaSwag など、これらのデータベースの多くは 2015 年以前には存在していませんでした。

ベンチマークが時代遅れになることに対応して、一部の新しいデータベースは、新しい関連するデータポイントで常に更新されています。これが、AI モデルが技術的には一部の分野 (小学校の算数やコード生成) において人間のパフォーマンスにまだ匹敵していない理由ですが、その実現は順調に進んでいます。

AI が人間を上回るのはなぜですか?

しかし、ここ数年で AI の能力がこれほど急速に成長したのはなぜでしょうか?

コンピューティング能力、データの可用性、アルゴリズムの向上の革命のおかげで、AI モデルは 10 年前と比べて高速になり、学習できるデータセットが増え、効率が最適化されています。

AI 言語モデルが標準化されたテストで人間のパフォーマンスに匹敵する、または人間のパフォーマンスを上回るという見出しが定期的に取り上げられるのはこのためです。実際、AI 開発者にとっての重要な問題は、モデルがテスト用に考案されたベンチマークデータベースを上回り続けているにもかかわらず、依然として何らかの形で現実世界のテストに失敗していることです。

今後数年間でさらなるコンピューティングとアルゴリズムの進歩が見込まれるため、この急速な進歩は今後も続くと考えられます。しかし、AI の進歩に対する次の潜在的なボトルネックは、AI 自体ではなく、モデルをトレーニングするためのデータの不足である可能性があります。

投稿者: okazaki-N
ニュース一覧, ◆科学・技術

【ntv】『２０２４年問題』って知ってる？　荷物の配達…前の記事

催し・講座/2024年1月3日更新次の記事

福山市議会議員岡崎まさずみ

ニュース