【ledge】アップル、画像とテキストを理解するマルチモーダル大規模言語モデル「MM1」の論文を発表/2024/3/22

これまで多くあるプログラミングの中でもオープンな開発形態と機能をもった場合、他と比較して独自の発展をしやすいことから、ほかのモデルと比較してどういった発展をみせるのかに注目していきたいと思います。(N)2024.3.25

アップルの研究チームは、このモデルの開発において、そのアーキテクチャ、データセットの内容、事前学習・ファインチューニングの詳細に至るまで、従来公開されてこなかった詳細な情報を公開している。これは、AI研究における透明性と共有を促進する意図を示しており、競合他社が進めるクローズドな方針とは一線を画している。

【ledge】

2024/3/22

画像の出典：Dall-E3により ledge.ai が生成

2024年3月14日、アップルの研究チームは、画像とテキストの両方を処理できる能力を持つマルチモーダル大規模言語モデル「MM1」を発表した。

このモデルは画像とテキストの両方を理解し、処理する能力を持つマルチモーダルAIで、一部のベンチマークではOpenAIのGPT-4Vを上回る性能を示している。論文によると、MM1は30億、70億、300億という複数のパラメータサイズを持ち、10億以上の画像および30兆語以上のテキスト、GitHubのコード例など多岐にわたるデータセットを用いた独自の学習方法で訓練されている。

画像の出典：Comparison with SOTA models on MLLM benchmarks.

MM1は、画像内のオブジェクトの数を正確に数える、画像内の文字や数字を認識する、画像を見た人間の感じ方に基づく抽象的な質問に長文で回答するといった、画像を理解する能力において特に優れている。

画像の出典：Examples testing MM1 counting, OCR

さらに、ビーチパラソルの画像から温暖な気候を読み取る、飛行機が雪の上を飛んでいる画像から気温を推測するなど、画像のコンテキストを理解した対応も得意としている。これらの能力により、MM1は教育的なシナリオや複雑な問いに答えるなど、様々なタスクで高いパフォーマンスを発揮する。

画像の出典：Examples testing MM1 ability at reasoning across images and texts

アップルの研究チームは、このモデルの開発において、そのアーキテクチャ、データセットの内容、事前学習・ファインチューニングの詳細に至るまで、従来公開されてこなかった詳細な情報を公開している。これは、AI研究における透明性と共有を促進する意図を示しており、競合他社が進めるクローズドな方針とは一線を画している。

Like!

クリップする

投稿者: okazaki-N
ニュース一覧, ◆経済・産業, ◆科学・技術

みんなの掲示板/2024年3月1日更新前の記事

【saita】もう「大根おろし」に時間をかけない！一…次の記事

福山市議会議員岡崎まさずみ

ニュース

【ledge】アップル、画像とテキストを理解するマルチモーダル大規模言語モデル「MM1」の論文を発表/2024/3/22

【ledge】

ニュース関連記事

【kurashiru】「もう失敗しない！」完璧な“ゆで卵”が誰でも作…

【ツギノジダイ】2ｔ以上のトラックに昇降設備設置・ヘルメット着用の義…

２０２２年（令和４年）６月定例会の開催日程（予定）／2022年5月3…

（仮称）子ども未来館基本構想（案）に対する意見の募集について／202…

地元の義務教育学校「想青学園」体育祭

イコールふくやま相談室

サイト内検索〈下記欄へ入力〉

ニュース > 2011/9～月別アーカイブ

ニュース > カテゴリメニュー

【 FBでフォロー！】

誠友会

リンク一覧

岡崎まさずみ Official Web Site | みんなでつくろう福山の未来！

facebook

ニュース

【ledge】アップル、画像とテキストを理解するマルチモーダル大規模言語モデル「MM1」の論文を発表/2024/3/22

ニュース関連記事

サイト内検索〈下記欄へ入力〉

ニュース > 2011/9～月別アーカイブ

ニュース > カテゴリメニュー

【 FBでフォロー！ 】

誠友会

リンク一覧

facebook

【 FBでフォロー！】