ニュース

【ledge.ai】ChatGPTに視覚・聴覚・音声出力を実装 画像を認識して音声対話が可能/2023/10/2

【ledge.ai】

2023/10/2

米国OpenAIは現地時間の2023年9月25日、対話型AI「ChatGPT」に、ChatGPTに新たな音声と画像機能を導入開始すると発表した。ChatGPTとの音声対話や、画像を示し対話することができる。例えば冷蔵庫の写真を撮り、夕食のメニューを考えさせることも可能だという。音声はiOSとAndroidで利用可能となり、画像はすべてのプラットフォームで利用できる。この新機能は、今後2週間でPlusユーザーとEnterpriseユーザーに順次提供される。

例えば下図のように、自転車の一部を撮影した画像と文章で「これはレバーですか?」とChatGPTに質問をすると、「いいえ、それはボルトです。緩めるにはレンチが必要です」という回答が返ってくる。 gptimage.jpg

音声機能には、新しいテキスト読み上げモデルを活用しており、テキストと数秒のサンプル音声だけから人間のような音声を生成できる。プロの声優と協力して数種類の音声が作成されている。また、音声認識には同社のオープンソースのWhisperを使用し、話された言葉をテキストに変換する。

画像理解は、マルチモーダルGPT-3.5およびGPT-4によって強化されている。これらのモデルは、言語推論スキルを、写真、スクリーンショット、テキストと画像の両方を含むドキュメントなど、幅広い画像に適用するという。


 

福山市のホームページその他外部サイトへの「リンク」は、予告なく変更及び削除されることがあります。
掲載情報の詳しい内容については、各担当部署または関係機関へお問い合わせください。

ニュース > 2011/9~月別アーカイブ

ニュース > カテゴリメニュー

▲知りたいニュースを上記のそれぞれのメニューから選ぶことが出来ます。

フェイスブック-公式ページ