Appleの新しいイメージとテキストモデル「MM1」:GPT-4やGeminiを超える

AI分野でこれまでその実力を隠してきたAppleが、ついにそのベールを脱ぎました。Appleが公開したのは、最高性能を誇るImage(イメージ)-Text(テキスト)マルチモーダルモデル「MM1」です。

Tanaka Haruki
March 18, 2024

「MM1」は、なんと300億のパラメータを持ち、画像を読み取り、それを自然言語で説明する能力(VQA)において、OpenAIの「GPT-4」やGoogleの「Gemini Ultra」を部分的に上回る性能を示したと報じられています。

目次
  1. AppleのAI:「MM1」とは?
  2. AppleのAI:「MM1」の特徴
  3. AppleのAI:「MM1」の性能
  4. アップルのAIへの取り組み

AppleのAI:「MM1」とは?

アップルの研究者たちは、テキストと画像の両方で大規模な言語モデルをトレーニングする新しい方法を開発しました。これにより、より強力で柔軟なAIシステムを実現しています。「MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training」と題された研究論文では、異なるタイプのトレーニングデータとモデルアーキテクチャを慎重に組み合わせることで、AIベンチマークの範囲において最先端のパフォーマンスを達成できたと述べています。

この研究では、画像やテキストなど、さまざまな種類の情報を理解できる超大型のAIモデル、つまり「大規模マルチモーダルモデル」の作り方について話しています。このAIを作る上で、どんなアーキテクチャコンポーネント(部品)を使い、どんなデータで学習させるかが、とても重要だということを発見しました。

具体的には、画像とその説明文を組み合わせたデータ、画像とテキストが交互に来るデータ、そしてテキストだけのデータを上手に混ぜて学習させることが、AIをとても賢くする秘訣だという事です。また、画像をどう解析するか(画像エンコーダ)、画像の解像度や画像内の情報の量(画像トークン数)が大きな影響を与える一方で、画像と言語をどう結びつけるか(ビジョン言語コネクター)は、そこまで重要ではないことが分かりました。

これらの発見をもとに、最大300億パラメータを持つ大規模マルチモーダルモデル「MM1」を作りました。このMM1は、大規模に学習させたおかげで、「MM1」はコンテキスト内学習(in-context learning)の強化や複数画像推論(multi-image reasoning)など、少数ショットの思考連鎖プロンプト(few-shot chain-of-thought prompting)を可能にしています。

MM1が画像を読み取って答えるプロセス

AppleのAI:「MM1」の特徴

  • 多様なデータセットの活用:視覚と言語情報をカバーする多様なデータセットのトレーニングにより、MM1モデルは画像キャプション、視覚的質問応答、自然言語推論などのタスクで優れた能力を発揮します。
  • 視覚コンポーネントのスケーリング:画像エンコーダ、入力画像の解像度、そして画像トークン数の選択は、モデルのパフォーマンスに大きな影響を与えます。これは、マルチモーダルモデルにおける視覚コンポーネントの継続的なスケーリングと改良が、パフォーマンスをさらに向上させる鍵であることを示しています。これらの要素を最適化することで、「MM1」は画像をより正確に解釈し、異なる種類のデータ間での関係をより効果的に理解できるようになりました。
  • 複雑な問題解決能力:最大300億パラメータのMM1モデルは、複数の入力画像に対する多段階の推論を行う強力なコンテキスト学習能力を持っています。これは、大規模マルチモーダルモデル(LMM)が、言語理解と生成を必要とする複雑で開かれた問題に取り組む可能性を示しています。
MM1の実証的な設定

AppleのAI:「MM1」の性能

ベンチマークでは、MM1の3Bおよび7Bモデルが、「LLaVA」や「Gemini Nano」、「Q1」、「GPT-4」などの他のマルチモーダルモデルの性能を大部分で上回ったとされています。

MM1のベンチマーク結果

アップルのAIへの取り組み

アップルは、Google、Microsoft、Amazonなどの競合他社が製品に生成AI機能を統合する中、AI開発への投資を加速しています。AIと機械学習を基本技術と見なし、これらの技術を製品の中核に位置づけています。アップルは、Siri、Messages、Apple Musicなどのアプリやサービスにこれらの技術を統合することを目指しています。

アップルの「MM1」は、AIの分野での野心的な取り組みを示すものであり、画像とテキストを理解するAIの能力を大幅に向上させる可能性があります。アップルがこの技術を製品にどのように活用していくか、そしてAIの進化において競合他社とどのように競争していくかが注目されます。


関連記事

誰でもプロ級画像編集!AppleのMGIEで写真が魔法のように変身

Googleの最新AIで創造性を加速:ImageFXとTextFX

DALL-E 3:画像生成のプロンプトとコツDALL-E 3を無料で使いこなす方法!

Appleの新しいイメージとテキストモデル「MM1」に関するFAQ

Q1: 「MM1」とは何ですか?

A1: 「MM1」はAppleが開発した最新のイメージ-テキストマルチモーダルモデルで、300億のパラメータを持ち、画像を読み取り自然言語で説明する能力において、他のAIモデルを部分的に上回る性能を持っています。

Q2: 「MM1」の特徴は何ですか?

A2: 「MM1」の主な特徴には、様々なデータセットの活用、視覚コンポーネントのスケーリング、そして複雑な問題解決能力があります。これにより、画像キャプション、視覚的質問応答、自然言語推論などのタスクで優れた能力を発揮します。

Q3: 「MM1」はどのようにして他のAIモデルと比較されますか?

A3: ベンチマークテストによると、「MM1」の3Bおよび7Bモデルは、OpenAIの「GPT-4」やGoogleの「Gemini Ultra」など、他の多くのマルチモーダルモデルよりも優れた性能を示しています。

Q4: Appleは「MM1」をどのように活用する予定ですか?

A4: Appleは「MM1」をSiri、Messages、Apple Musicなどのアプリやサービスに統合することを目指しています。これにより、AIを使用してパーソナライズされたプレイリストを自動生成したり、開発者がコードを書くのを支援したり、オープンエンドの会話やタスク完了に取り組むことが可能になります。

Q5: 「MM1」の開発における主な課題は何でしたか?

A5: 「MM1」の開発においては、画像とテキストの両方を含む多様なデータセットでのトレーニング、画像エンコーダーの選択、画像の解像度や画像トークン数の最適化など、多くの課題がありました。これらの課題を克服することで、Appleは「MM1」を成功させることができました。

Q6: 「MM1」の将来の展望はどうですか?

A6: 「MM1」はAIの分野でのAppleの野心的な取り組みを示しており、今後も画像とテキストを理解するAIの能力をさらに向上させるための研究が続けられています。また、Appleはこの技術を製品にどのように活用していくか、そしてAIの進化において競合他社とどのように競争していくかが注目されています。

#AppleAI #MM1Model #MultimodalAI #ImageToText #AITechnology

目次
  1. AppleのAI:「MM1」とは?
  2. AppleのAI:「MM1」の特徴
  3. AppleのAI:「MM1」の性能
  4. アップルのAIへの取り組み