「AI最新ニュースまとめ」AI技術の最前線：GoogleのGemini 1.5とOpenAIのSora、そしてMetaのV-JEPA

GoogleのGemini 1.5、OpenAIの動画生成AI Sora、Metaが開発したV-JEPAモデルの最新情報。AI技術の進化とその応用可能性について詳しく解説します。

February 17, 2024

Google 次世代モデル、Gemini 1.5発表：業界をリードする新機能とは？

GoogleのGemini 1.5は、AI技術の進化において重要なマイルストーンを示しています。この新しいモデルは、以下のようないくつかの特徴を持っています。

Mixture-of-Experts (MoE)アーキテクチャ

Gemini 1.5は、複数の小規模な言語モデルが集まった「Mixture-of-Experts (MoE)」アーキテクチャを採用しています。この方法により、与えられたプロンプトを最も適切に処理できる専門家（モデル）に効率的に割り当てることができます。この技術は、大規模な言語モデルの処理効率を大きく向上させる、革新的な技術です。

100万トークンの処理能力

従来のモデルが32,000トークンの処理能力を持っていたのに対し、Gemini 1.5は、最大100万トークンを処理することができます。これは約75万語に相当し、これまでの言語モデルの能力を大幅に超えていることを意味します。この進化により、より長いテキストの処理が可能になり、新たな応用範囲が開かれています。

高い正確性での情報抽出

Gemini 1.5は、100万トークンに及ぶ大量のテキストブロック内で、特定の情報や事実を含む小さなテキスト片を99%の確率で見つけ出す能力を持っています。これは、非常に長いテキストの中から特定の情報を抽出する能力を示しており、大規模な情報セットからの精度高い情報抽出において非常に有効です。

異種データの理解

Gemini 1.5は、さまざまな形式のデータを理解する能力に優れています。特に興味深いのは、無声映画を分析することで、映画のストーリーや出来事をテキストや台本がなくても正確に捉えることができる点です。細かいディテールにまで気が付き、複雑な状況も理解できるため、AIの使用範囲が大きく広がることが期待されています。

これらの特徴により、Gemini 1.5は自然言語処理(NLP)の分野における新たな可能性を提示し、AI技術の応用範囲を大きく広げることが期待されています。

OpenAI 動画生成AI、Soraを公開：おすすめ機能6選！

最大60秒のビデオ生成: SoraはAIテキストからビデオへの変換技術で、最大60秒間のリアルなビデオを生成する能力があります。
非常にリアリスティックなビデオ: Soraによって作られるビデオは、そのリアリズムで非常に高いレベルに達しており、視聴者を驚かせる品質を持っています。
イメージからのビデオ生成: Soraは静止画から動画を作成することができます。たとえば、柴犬の写真からその動きをアニメーション化したビデオを作ることが可能です。
シミュレーションされたMinecraftビデオ: Soraは、まるでMinecraftを実際にプレイしているかのようなビデオを生成できます。
画像生成機能: Soraはビデオだけでなく、最大2048x2048の解像度を持つ画像の生成も可能です。これは従来の画像生成AIよりもリアリスティックな結果を出すとされています。
カスタマイズ可能なビデオ編集: 研究論文によれば、ユーザーはビデオの様々な側面をカスタマイズできます。例えば、特定のシナリオを変更したり、異なるキャラクターをビデオに挿入したりすることができます。

これらの特徴によって、SoraはAIによるコンテンツ作成の可能性を大いに広げています。非常にリアルなビデオを短時間で作成できるため、教育、エンターテイメント、マーケティングなど、さまざまな分野での応用が期待されています。

ChatGPTのメモリと新しいコントロール

ChatGPTのメモリ機能について

メモリ機能の導入: ChatGPTは、過去の会話やその詳細を記憶し、将来の議論にその情報を活用するメモリ機能が備わっています。これにより、ChatGPTはユーザーとのやり取りを通じて、よりパーソナライズされた応答を提供することができます。
メモリの管理: ユーザーは設定からメモリ機能をオンまたはオフにすることができ、保持している記憶を管理したり、特定の記憶を削除することも可能です。

一時チャット、秘密チャット（Temporary Chat）

もし会話の履歴を残さずに、メモリー機能を使用せずに話がしたい場合は、「一時的なチャット」をご利用できます。一時的なチャットは履歴に表示されず、メモリー機能を使用せず、モデルのトレーニングにも使用されないので、秘密チャットとして使用できると思います。

AIと半導体：OpenAIアルトマンの新戦略

Sam Altman（サム・アルトマン）による7兆ドルのAIチッププロジェクトは、テクノロジー業界で広く議論されていますが、その実態は初期報道とは異なるものであることが明らかになりました。初期の見解では、OpenAIの代表であるSam AltmanがNvidiaへの依存を減らす目的で、自社でGPUを製造するための新しいAIチッププロジェクトに最大7兆ドルを投じる計画があると報じられました。この計画の背景には、現在のGPU不足の問題を解決し、GPUの流通を自社でコントロールできるようにするという明確な目的がありました。

しかし、後の報道で、この7兆ドルという数字が実際にはチップ製造への直接的な投資ではなく、データセンターの不動産や電力、チップ製造など、関連事業への長期的な総投資額を指していることが訂正されました。この訂正は、Sam Altmanのプロジェクトに対する理解を深め、その野心的な計画の範囲を正確に把握する上で重要なものとなります。

このプロジェクトは、単に新しいAIチップを開発することだけではなく、AI技術の進歩を支えるための広範なインフラの構築を目指しています。7兆ドルという数字は、プロジェクト参加者が今後数年間で必要とする投資の規模を示しており、この巨額の投資がAI技術の発展にどのように貢献するかには大きな注目が集まっています。

この計画の背後にあるビジョンは、AIの未来を形作る上で重要な一歩となる可能性があります。AI技術が社会にもたらす影響は計り知れず、Sam Altmanのこの野心的なプロジェクトが成功すれば、AIの可能性をさらに広げることにつながるでしょう。私たちは、このプロジェクトがどのように進展し、AI技術の未来にどのような影響を与えるかを注視していく必要があります。

Meta、見ながら学習するAIモデル「V-JEPA」を公開

Metaは、「V-JEPA（Video Joint Embedding Predictive Architecture）」と呼ばれる新しいモデルを発表しました。このモデルは、機械が私たちの世界をより深く理解するための重要な一歩とされています。V-JEPAは、物体やそれらの相互作用を特定し、理解するのに特に優れています。

V-JEPAの特長

V-JEPAは、ビデオ内で不足している部分や見えない部分を推測することによって学習を進めるモデルです。このアプローチにより、従来の画像データを扱っていたI-JEPAの方法を踏襲しながらも、ビデオと言うより複雑なデータの処理能力を実現しました。
MetaのVP兼チーフAIサイエンティストであるYann LeCun氏は、V-JEPAの開発目標を「人間のように幅広く学習できる一般人工知能の構築」としています。このAIモデルは、複雑なタスクを効率良く学習し、未知の環境にも柔軟に適応できる能力を持っています。
V-JEPAは、従来の生成的手法に比べて、トレーニング及びサンプリング効率が1.5倍から6倍に向上しています。この効率向上は、予測できない情報を排除する柔軟性により、より速く、効果的に学習が可能になるためです。

応用分野への期待

現在、V-JEPAは、研究用モデルとして位置づけられていますが、将来的にはコンピュータビジョンシステムをはじめとした様々な応用分野での使用が期待されています。メタは、ビデオ処理だけでなく、オーディオを含む統合モデルの開発も検討しています。

V-JEPAはGitHub上でCC BY-NC（クリエイティブ・コモンズ・ライセンス）のもとに公開されています。これにより、世界中の研究者がアクセスし、研究に利用できるようになります。

V-JEPAの登場は、AI分野における重要な進歩です。この先進的な手法により、AI技術の可能性がさらに広がることが期待されます。Meataによるこの革新的なモデルが、将来のテクノロジーにどのような影響を与えるか、引き続き注目して行きます。

毎週の知見を見逃していませんか？

私たちのAIに関する旅は、毎週新たな発見でいっぱいです。もし、まだ前回の記事をご覧になっていないのであれば、ぜひチェックしてみてください。

よくある質問

Google Gemini 1.5について

Q1: Google Gemini 1.5とは何ですか？‍

A1: Google Gemini 1.5は、エキスパートの混合（Mixture-of-Experts, MoE）アーキテクチャを採用し、100万トークンの処理能力を持つ、次世代のAIモデルです。

Q2: Gemini 1.5の主な特徴は何ですか？‍

A2: 主な特徴には、エキスパートの混合アーキテクチャ、100万トークンの処理能力、高い正確性での情報抽出、異種データの理解があります。

Q3: Gemini 1.5が業界に与える影響は何ですか？‍

A: Gemini 1.5は、自然言語処理（NLP）の分野における新たな可能性を提示し、AI技術の応用範囲を大きく広げることが期待されています。

OpenAI Soraについて

Q1: OpenAI Soraとは何ですか？‍

A1: Soraは、AIテキストから最大60秒のリアルなビデオを生成する技術を持つ、OpenAIによる新しい動画生成AIです。

Q2: Soraのおすすめ機能は何ですか？‍

A2: Soraの機能には、最大60秒のビデオ生成、非常にリアリスティックなビデオ、イメージからのビデオ生成、シミュレーションされたMinecraftビデオ、画像生成機能、カスタマイズ可能なビデオ編集があります。

Q3: Soraが対象とする応用分野は？‍

A3: 教育、エンターテイメント、マーケティングなど、非常にリアルなビデオを短時間で作成できるため、さまざまな分野での応用が期待されています。

ChatGPTのメモリと新しいコントロールについて

Q1: ChatGPTのメモリ機能とは何ですか？‍

A1: ChatGPTのメモリ機能は、過去の会話やその詳細を記憶し、将来の議論にその情報を活用する機能です。

Q2: メモリ機能の管理方法は？‍

A2: ユーザーは設定からメモリ機能をオンまたはオフにすることができ、保持している記憶を管理したり、特定の記憶を削除することも可能です。

OpenAIアルトマンの新戦略について

Q1: Sam AltmanのAIチッププロジェクトとは？‍

A1: Sam Altmanによる7兆ドルのAIチッププロジェクトは、AI技術の進歩を支えるための広範なインフラの構築を目指すものです。

Q2: プロジェクトの真の目的は何ですか？‍

A2: このプロジェクトは、新しいAIチップを開発することに加え、データセンター、電力、チップ製造など、関連事業への長期的な総投資を含みます。

MetaのV-JEPAについて

Q1: V-JEPAとは何ですか？‍

A1: V-JEPAは、ビデオ内で物体やそれらの相互作用を特定し、理解するのに特に優れた、Metaによる新しいAIモデルです。

Q2: V-JEPAの応用分野への期待は？‍

A2: V-JEPAは研究用モデルとして位置づけられていますが、将来的にはコンピュータビジョンシステムをはじめ、様々な応用分野での使用が期待されています。

‍