パナソニック ホールディングス(以下、パナソニックHD)およびパナソニックR&Dカンパニーオブアメリカは6月4日、カリフォルニア大学ロサンゼルス校((以下、UCLA))の研究者らと共同で、テキスト、画像、音といった異なるデータ形式を自由に相互変換できる(以下、Any-to-Any)マルチモーダル生成AI「OmniFlow」を開発したと発表した。
マルチモーダルな生成AIが抱える課題
異なるデータ形式同士の変換を実現するマルチモーダルな生成AIは、学習データに通常、取り扱いたいデータ全てのペアを用意する必要がある。
しかし、テキスト、画像、音声がすべてそろったデータは入手方法が限られバリエーションを増やすにはコストがかかることが課題となっている。