Googleの「ScreenAI」、UXの未来を変えるか?

画面上の情報を理解し、質問に答えたり、ナビゲーションを実行したりすることができますか?Google AIによって開発されたScreenAIは、まさにそのような課題を解決するためのツールです。この視覚言語モデルは、ユーザーインターフェースとインフォグラフィックの両方を理解し、私たちが画面を見て解釈するのと同じように、コンピュータに画面を「読ませる」能力を提供します。

Tanaka Haruki
April 23, 2024

ScreenAIとは?

ScreenAI は、Google AI によって開発された、ユーザー インターフェース (UI) とインフォグラフィックの両方を理解できる視覚言語モデル (VLM) です。

グラフィカルな質問回答、要素の注釈、要約、ナビゲーション、UI 固有の QA などのタスクを実行できる、非常に優れたツールです。簡単に言うと、ScreenAIは、私たちが画面を見て理解するのと同様に、コンピュータが画面を賢く読み取り、理解できるようにする技術です。

ScreenAIの仕組み

ScreenAIの構造は、PaLIというシステムに基づいており、複数のモードを扱うエンコーダーブロックと自動で文章を生成するデコーダーから成り立っています。このPaLIエンコーダーは、画像から情報を抽出するビジョントランスフォーマー(ViT)と、画像とテキストの情報を組み合わせて処理するマルチモーダルエンコーダーを利用します。このような柔軟な設計により、ScreenAIは、画像とテキストの情報を組み合わせた問題を、テキストの問題として解決することができます。

さらに、ScreenAIはpix2structで導入された新しいパッチング戦略を取り入れています。これは、画像の固定されたグリッドパターンを使うのではなく、画像の本来のアスペクト比を保つようにグリッドの大きさを選ぶ方法です。この戦略により、さまざまなアスペクト比を持つ画像でもScreenAIは効果的に機能します。

Screen AIの特徴

ScreenAIの学習プロセス

ScreenAIモデルの学習プロセスは、自動生成されたデータセットでの事前学習(プリトレーニング)から始まり、タスク固有のデータセットでの微調整(ファインチューニング)による二段階の学習プロセスを経ています。以下は、それぞれの段階の詳細です。

事前学習段階

この段階では、自己監督学習を通じてデータラベルを自動生成します。ここで、ViT(Vision Transformer)と言語モデルが訓練されます。このプロセスは、大量の未ラベルデータから有用な特徴を抽出し、モデルが視覚的コンテンツと自然言語の指示を理解する基盤を形成します。

  1. 質問への回答

Screen AIは、スクリーンショットの内容に関する質問に答えることができます。例えば、スクリーンショットを示して、その中の洋服店の名前を尋ねるという例です。画面のテキストを読み、正しい回答を提供します。

Screen AI:質問への回答
  1. 画面ナビゲーション

Screen AIは、自然言語で与えられた指示を画面上で実行可能なアクションに変換します。例えば、「リストから最初のアイテムを押して下さい。」という命令があれば、その操作を実際に行います。

ScreenAI:画面ナビゲーション
  1. 画面の要約

Screen AIは、画面の内容を 1 つまたは 2 つの簡略な文章に要約します。

Screen AI:画面の要約

微調整段階

この段階では、人間の評価者がラベルを付けたデータを使用してモデルを最終的に調整します。ViTはこの段階で固定され、主に人間がラベルを付けたデータを利用して、特定のタスクやシナリオにおけるモデルの性能を最適化します。このステップは、モデルが実世界のアプリケーションで高い精度と関連性を持つように調整するために重要です。

これらの学習段階を通じて、ScreenAIモデルは画面上のコンテンツを理解し、自然言語の指示に基づいて適切なアクションを実行できる能力を獲得します。

ScreenAIは、いつ使えるの?

ScreenAIはまだ研究プロジェクト段階にあり、一般公開されていないため、現在は広く利用することができません。この技術を試すには、公開までしばらく待つ必要があります。今後、追加の情報が入り次第、お知らせいたします。

ScreenAIに関するよくある質問(FAQ)

Q1: ScreenAIとは何ですか?

A1: ScreenAIは、Google AIによって開発された視覚言語モデル(VLM)で、ユーザーインターフェース(UI)とインフォグラフィックを理解することができます。このAIは、画面上の情報を読み取り、グラフィカルな質問回答、要素の注釈、要約、ナビゲーション、UI固有のQAなどの複数のタスクを実行できます。

Q2: ScreenAIはどのように機能しますか?

A2: ScreenAIは、PaLIシステムを基盤とし、画像から情報を抽出するビジョントランスフォーマー(ViT)と、画像とテキストの情報を組み合わせて処理するマルチモーダルエンコーダーを利用しています。このモデルは、画像の本来のアスペクト比を保ちながら情報を処理する新しいパッチング戦略を取り入れており、さまざまな画面サイズに対応できます。

Q3: ScreenAIの学習プロセスにはどのような段階がありますか?

A3: ScreenAIの学習プロセスは二段階で構成されています。最初の「事前学習段階」では、大量の未ラベルデータを使用して自己監督学習を行います。次に、「微調整段階」で人間の評価者がラベル付けしたデータを用いて、特定のタスクやシナリオにモデルの性能を最適化します。

Q4: ScreenAIを使用できるのはいつですか?

A4: ScreenAIは現在研究プロジェクト段階にあり、一般公開には至っていません。公開の予定については、今後の発表を待つ必要があります。具体的なリリース日や利用方法に関する追加情報が入り次第、更新いたします。

Q5: ScreenAIの利用シナリオはどのようなものがありますか?

A5: ScreenAIは、スクリーンショットの内容に関する質問への回答、画面ナビゲーション、画面の要約など、多様なタスクに対応することができます。例えば、ウェブページやアプリケーションのUIを解析して、ユーザーの問いに応じた具体的なアクションをサポートします。

#ScreenAI #GoogleAI #VisualLanguageModel