【visualcapitalist】
2023 年 8 月 25 日
AI と人間: 特定のスキルをより優れて実行できるのはどちらですか?
ChatGPT の爆発的な台頭により、AI は、特に読解、音声認識、画像識別といった従来の人間の能力の要塞において、大衆にその存在感を示すようになりました。
実際、上のグラフを見ると、AI がかなりの分野で人間のパフォーマンスを上回っていることは明らかであり、他の分野でも人間を追い越すことになりそうです。
パフォーマンスのテスト方法
Contextual AIのデータを使用して、AI モデルがどのくらいの速さでデータベース ベンチマークを上回り始めたか、また AI モデルがまだ人間のレベルのスキルに達しているかどうかを視覚化します。
各データベースは、手書き認識、言語理解、読解などの特定のスキルを中心に考案されており、各パーセンテージ スコアは次のベンチマークと対照的です。
- 0% または「最大限のパフォーマンスのベースライン」
これは、データセット作成時の AI による最もよく知られているパフォーマンスと同じです。 - 100%
このマークは、データセットに対する人間のパフォーマンスと同等です。
これら 2 つのポイントの間にスケールを作成することで、各データセットの AI モデルの進行状況を追跡できます。直線上の各点は最良の結果を示しており、直線が上向きになるにつれて、AI モデルは人間のパフォーマンスに一致するものにどんどん近づきます。
以下は、AI が 8 つのスキルすべてにわたって人間のパフォーマンスを照合し始めた時期の表です。
スキル | 人間の パフォーマンスにマッチ |
使用されるデータベース |
---|---|---|
手書き認識 | 2018年 | MNIST |
音声認識 | 2017年 | 配電盤 |
画像認識 | 2015年 | イメージネット |
読解 | 2018年 | スクワッド 1.1、2.0 |
言語 理解 |
2020年 | のり |
常識 の完成 |
2023年 | ヘラスワッグ |
小学校の数学 | 該当なし | GSK8k |
コード生成 | 該当なし | HumanEval |
このグラフから分かる重要な点は、 2010 年以降にどれだけの進歩があったかということです。実際、SQuAD、GLUE、HellaSwag など、これらのデータベースの多くは 2015 年以前には存在していませんでした。
ベンチマークが時代遅れになることに対応して、一部の新しいデータベースは、新しい関連するデータ ポイントで常に更新されています。これが、AI モデルが技術的には一部の分野 (小学校の算数やコード生成) において人間のパフォーマンスにまだ匹敵していない理由ですが、その実現は順調に進んでいます。
AI が人間を上回るのはなぜですか?
しかし、ここ数年で AI の能力がこれほど急速に成長したのはなぜでしょうか?
コンピューティング能力、データの可用性、アルゴリズムの向上の革命のおかげで、AI モデルは 10 年前と比べて高速になり、学習できるデータセットが増え、効率が最適化されています。
AI 言語モデルが標準化されたテストで人間のパフォーマンスに匹敵する、または人間のパフォーマンスを上回るという見出しが定期的に取り上げられるのはこのためです。実際、AI 開発者にとっての重要な問題は、モデルがテスト用に考案されたベンチマーク データベースを上回り続けているにもかかわらず、依然として何らかの形で現実世界のテストに失敗していることです。
今後数年間でさらなるコンピューティングとアルゴリズムの進歩が見込まれるため、この急速な進歩は今後も続くと考えられます。しかし、AI の進歩に対する次の潜在的なボトルネックは、AI 自体ではなく、モデルをトレーニングするためのデータの不足である可能性があります。