【ledge.ai】
2023/10/2
例えば下図のように、自転車の一部を撮影した画像と文章で「これはレバーですか?」とChatGPTに質問をすると、「いいえ、それはボルトです。緩めるにはレンチが必要です」という回答が返ってくる。
音声機能には、新しいテキスト読み上げモデルを活用しており、テキストと数秒のサンプル音声だけから人間のような音声を生成できる。プロの声優と協力して数種類の音声が作成されている。また、音声認識には同社のオープンソースのWhisperを使用し、話された言葉をテキストに変換する。
画像理解は、マルチモーダルGPT-3.5およびGPT-4によって強化されている。これらのモデルは、言語推論スキルを、写真、スクリーンショット、テキストと画像の両方を含むドキュメントなど、幅広い画像に適用するという。