コンテンツへスキップ

マルチモーダルAIとは?歴史から活用事例までご紹介!

近年、話題になり、さらに進化し続けているOpenAI社のChatGPTをはじめとしたマルチモーダルAI。その活用の幅は広く、AIの可能性を広げています。

今回は、マルチモーダルAIの特徴や歴史、活用事例などをご紹介します。ぜひ今後のAI開発や活用にお役立てください。

目次

マルチモーダルAIとは

まずはマルチモーダルAIの特徴を確認しておきましょう。

マルチモーダルAIとは

マルチモーダルAIとは、テキストや画像、音声、動画など複数の種類のデータを同時処理し、複雑なタスクを解析できるAI技術のことを指します。

マルチには「複数」、モーダルには「形式」や「手段」の意味があり、マルチモーダルは複数の形式や手段を組み合わせて処理するという意味になります。

従来のテキストのみ、画像のみなど単一のデータ形式のみに対応できるシングルモーダルAIと比較して、マルチモーダルAIはさまざまな情報を掛け合わせて処理できるため、より人間の知能に近く、複雑なタスク処理が可能です。

昨今は、世界的な大手IT企業がシングルモーダルAIをマルチモーダル化する動きが見られます。

OpenAI社の生成AIであるChatGPTは、従来はテキストのみの入出力に対応するシングルモーダルAIでしたが、画像や動画の利用が可能になるなど、マルチモーダルAIに進化しました。

また、Googleが2023年12月に発表したGeminiもマルチモーダルAIの生成AIです。Geminiではテキストや画像、音声、動画、コードなど複数のデータ形式を扱うことができます。

今後もマルチモーダル化の波はさらに加速していくと考えられます。

マルチモーダルAIの歴史

マルチモーダルAIは、実は30年以上前から研究が始まっていました。ここで、マルチモーダルAIの歴史を簡単にご紹介します。

1986年頃

マルチモーダルAIの研究が始まったのは1986年頃といわれており、機械学習が脚光を浴びていた時期です。シングルモーダルAIが主流でしたが、マルチモーダルAIについても研究が行われていました。

当時進められていたのは、音声と唇の画像を組み合わせて音声認識を行い、テキストに変換するという単純なタスクの研究でした。

2011年頃

2000年頃に人間が自然に行うタスクをコンピュータに学習させる機械学習の一つであるディープラーニング(深層学習)がAIの手法として登場し、2011年頃からは、ディープラーニングを使ったマルチモーダルの研究が始まったといわれています。

ディープラーニングでは、画像とテキストの処理能力が大幅に進化したことから、それらを組み合わせたマルチモーダルAIも実現できるようになりました。

2013年

2013年にはテキストと人間の表情の画像を組み合わせによって、喜怒哀楽といった感情を伴う表情が変化するアバターの研究が進みました。アバターはユーザーが入力したテキストに応じて表情を作り、人間の表情に近づける試みでした。

その後も、さらにAIの進化と共に研究が進んでいきました。

2022年後半

2022年後半には、世界的に話題になった生成AIであるChatGPTもマルチモーダルAI化を遂げました。今後もさらに発展していくことに期待が高まっています。

マルチモーダルAIでできることと活用事例

マルチモーダルAIにおいては、どのようなことができるのでしょうか。また具体的な活用事例もあわせてご紹介します。

自動運転

自動運転では、AIが自動で運転を進めるための画像データのほか、「目」の役割を担うミリ波センサーや、加速度の測定を目的とした加速度センサーからの情報および、GPSセンサーからの位置情報、救急車や踏切の警笛音などの音データを組み合わせなど、総合的な判断を行うモデルが活用されています。

【事例】
自動運転EV開発の国内ベンチャー企業が、自動運転のための国産LLM(大規模言語モデル)の開発に着手しました。このLLMはマルチモーダルであり、完全自動運転に向けた基盤モデルとなっています。

産業用ロボット

例えば製造工場の製造ラインに導入するロボットにおいて、画像・角度・速度・力覚などを複数の項目を組み合わせることで、より高度かつ精密な動作を実現しています。

【事例】
実際に開発され、活用されているロボットでは、タオルの折り畳みやサラダの盛り付けなどを行えるマルチモーダルAIロボットアームが一例として挙げられます。複数の項目を組み合わせて動作させることで、より人間の手による作業に近づけることができるとされています。

監視カメラ

屋内外に設置する監視カメラに、画像情報、音声情報、動作情報などの検知を可能にするマルチモーダルAIを搭載することで、異常や不審者の監視に役立ちます。

工場での異常検知

工場において、振動、温度、湿度などをセンサーで計測したデータと画像データ、音声データなどを組み合わせることでAIが異常を検知する仕組みがあります。

【事例】
ある製造業の現場では、リアルタイム作業認識AIシステムを活用しており、作業分析・工程分析・安全保証を行うことができます。複数のカメラで作業場を認識し、作業の速度を計測して効率性を評価したり、危険作業を検出して安全性を向上したりする仕組みを構築しています。

このように、マルチモーダルAIは多様なシーンで活用できる可能性があり、各種課題解決への期待が寄せられています。

マルチモーダルAIの課題と期待

マルチモーダルAIには現在、次のような課題があります。

【現状課題】

●シングルモーダルと比較してデータ量が増える
シングルモーダルAIと比較してマルチモーダルAIでは取り扱うデータ量が必然的に増えるため、計算時間が長引くことから、効率的なデータ活用術が求められます。また大規模なデータ計算基盤づくりがより重要になってくるため、さらなる研究が求められています。

●ブラックボックス化がさらに進む
AIを活用したシステムは、判断根拠が人間に明示されないことで、何を基準に結果を出したのかが人間にとってわからなくなるブラックボックス化が問題視されています。AIが急に停止したり、挙動がおかしくなったりしたときに、修正する術がわからなければ、問題を収束させることは困難です。

シングルモーダルと比較して、マルチモーダルAIは、取り扱うデータの種類が増えることで、より判断根拠のブラックボックス化が進みやすいため、これまで以上に対処が必要です。

【期待されること】

マルチモーダルAIはまだ課題が多く、研究は継続していく必要がありますが、さらなる進化に期待がかかっています。

●多岐に渡る分野で応用が期待されている
マルチモーダルAIの発展により、これまでできなかったことが増えるため、ビジネス、教育、医療、エンターテインメントなど多岐に渡る分野での応用が期待されています。

●自然言語処理との組み合わせでより高度な提案や検知に期待
ChatGPTのように、自然言語処理の進化によってより人間に近い自然な会話が可能になったことを受け、画像や音声と組み合わせたマルチモーダルAI技術によって、さらに高度な提案や検知ができるようになると期待されています。

●製造業などの人手不足への対応
先に挙げた例のように、製造業などにおけるロボットや異常検知などにマルチモーダルAIの活用が進んでいくことで、さらに人手不足への対応が期待できます。

まとめ

マルチモーダルAIは、今後AIのスタンダードとなっていくでしょう。しかしまだ発展途上であることは間違いありません。今後のさらなる進化とともに、自社で開発するAIシステムにもぜひマルチモーダルAIを積極的に取り入れていきましょう。

ブライセンでは、AI開発を強力にサポートするアノテーションサービスをご提供しております。

品質・実績重視のアノテーションサービス

国内シェアNo.1のアノテーション実績を誇る品質・実績重視のアノテーションサービスです。

2015年から案件継続率95%、納期遅延ゼロ、漏洩ゼロ、300名規模の質の高いアノテーターにより自動車、建設業、情報通信、機械製造、農業、食料品製造、スポーツなど幅広い実績がございます。

高セキュリティ環境

8年以上もの間、自動車メーカー様の厳しいセキュリティチェックもクリアしてきた実績がございますので、セキュリティ面でも安心してご利用いただけます。

柔軟な対応力

貴社の要件に応じて、オーダーメイドでご対応いたします。アノテーションのみならずAI開発も可能ですので、委託範囲についてもぜひご相談ください。

ブライセンのAIアノテーションサービスについて
詳しく知りたい方はこちら

アノテーション・AI制作に関するご相談、お見積り、情報収集など
まずは、お気軽にお問い合わせください

Tel 03-6264-7222(平日9:00~18:00)