「AI最新ニュースまとめ」AIの進化をチェック: Stable Diffusion 3とGoogleの最新動向

AI技術の進化に追いつけない?もう大丈夫!毎週5分で最新ニュースをチェック!AI技術は日々進化し、その最新情報を追いかけるのは大変ですよね。そこで、私たちは毎週、AIの最新ニュースをわかりやすくお届けします。

Sara Nanase
February 26, 2024

今週は、画像生成から言語処理の加速、Adobeの新機能まで、AIが私たちの生活や仕事にどのように役立つかをご紹介します。
最新のAI動向を知りたい方は、ぜひご覧ください!

Stability 、次世代の画像生成AIモデル「Stable Diffusion 3」発表

Stability AIが、次世代の画像生成AIモデル「Stable Diffusion 3」を発表しました。この新しいモデルは、Open AIが最近発表した動画生成AI「Sora」と同様の「拡散トランスフォーマー(Diffusion Transformer)」アーキテクチャを採用しています。まだ一般に広く利用されているわけではありませんが、早期プレビューへの参加を希望する方のために、待機リストへの登録が始まっています。

Stable Diffusion 3の特徴

  • 品質と精度の向上: このモデルは、前モデル「SDXL」に比べて、品質と精度が大幅に向上しています。8億から80億のパラメータを持つ様々なサイズのモデルを提供し、さまざまなデバイスで実行可能です。
  • カスタマイズ可能: ユーザーが望む画像を生成できるように、微調整機能もサポートしています。
  • 高品質の画像を生成:拡散トランスフォーマーは、従来の画像生成AIモデルである拡散モデルに使用されているU-Netを、テキスト生成モデルの基礎となるトランスフォーマーに置き換えた新しいアーキテクチャです。これにより、コンピューティングリソースをより効率的に使用し、従来の拡散画像よりも高品質の画像を生成できます。
  • 文字認識の改善:Stable Diffusion 3は、「フローマッチング(flow matching)」という技術を使用しています。これは、生成モデルを迅速に学習させる技術で、特に画像から学習を行う際に、モデルが選択できる最適な経路を提供します。そのおかげで、生成された画像における文字の正確な生成と一貫したスタイルの生成も可能になりました。

Prompt: Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy.(魔法使いが夜の山頂に立ち、暗闇で「Stable Diffusion 3」という輝く魔法の言葉を発するアニメイラスト)

Stable Diffusion3で生成したイメージ:文字が正確で綺麗に表示されている。

Google Gemini、人種差別対策で新アップデート発表

Googleは2月23日、AIサービス「Gemini」の画像生成機能で作成された歴史的に不正確な画像がネット上で拡散されたことを受け、謝罪しました。 問題となった画像は、1800年代の米国上院議員の中に黒人女性がいたり、第二次世界大戦時代のドイツ軍の制服を着た黒人男性がいたりするなど、歴史的にありえない人物や状況を描写していました。

この画像は、イーロン・マスク氏などから「狂気的な人種差別、反文明的なプログラミング」などの批判を受け、Googleは2月22日に機能を一時停止しました。 Googleはブログ投稿で、「Geminiは多様な人々を表示するように調整しましたが、明らかに表示すべきではない範囲を考慮できていませんでした」と説明しています。

今回の問題は、AI技術がまだ発展途上であり、倫理的な問題があることを示しています。 AIは、膨大なデータから学習するため、データに含まれる偏見やステレオタイプをそのまま反映してしまう可能性があります。

Googleは、今回の問題を受けて、Geminiの機能を改善し、再発防止に努めるとしています。 また、AI技術の倫理的な問題について、より深く議論していく必要があると述べています。

現在、画像生成機能をアップデート中である、Gemini

出典: Yahoo News

Google、最新のオープンソースAI:Gemma

Googleは、AI技術の進化において再び大きな一歩を踏み出しました。"Gemma"と名付けられた新しい開発者向けAIモデルの発表により、これが今年に入ってからの3度目の大きなニュースとなります。Gemmaモデルは、オープンソースAIの概念をさらに前進させるものです。

2023年2月21日、GoogleはDeepMindとその社内AI研究チームとの共同開発により、新たな軽量オープンモデル「Gemma」を発表しました。この名前は、Googleの別のAIモデル「Gemini」を連想させるかもしれません。実際、Gemma(ラテン語で「貴重な石」を意味する)は、Geminiモデルを開発する際に用いられた研究と技術を基にしています。

詳しい情報は、Google、オープンソースモデル「Gemma」公開 で確認ください。

AIの推論速度がすごい!GroqのLPU (言語処理ユニット)って知ってる?

「ChatGPT」、「Gemini」、「Groq」といったチャットボットとリアルタイムで対話できる新しいAI推論チップが注目を集めています。これらは、NVIDIAのGPUよりも高速な応答速度を提供すると評価されており、特に「LPU (言語処理ユニット)」がその中心にあります。

ニューアトラスによると、スタートアップ企業Groqが大規模言語モデル(LLM)などの計算集約型アプリケーションの処理速度を向上させるために最適化されたAIチップ、すなわち「LPU (言語処理ユニット)」を発表しました。

Groqは、Googleで機械学習用チップエンジニアを務めていたJonathan RossをはじめとするGoogle出身のエンジニアたちによって2016年に設立された半導体設計会社です。

この「LPU (言語処理ユニット)」は、ChatGPT、Gemini、Groq、LlamaなどのLLMの実行速度を飛躍的に向上させる推論に特化したチップであり、ユーザーの質問に対して瞬時に数百語の現実的な回答を生成する能力を持っています。

ベンチマークテストでは、Groqの「LPU」は他の8つのクラウドベース推論提供企業の性能を上回りました。テストで、GroqはMetaの700億パラメータLLM「Llama 2」に対して秒間241トークンを生成する一方、Microsoft Azureクラウドは秒間19トークンを生成しました。これは、ChatGPTが「LPU」チップ上で実行される場合、13倍以上速く実行される可能性があることを意味します。

1秒あたりのトークン生成数

Groqの「LPU」推論エンジンは、時間の経過に伴う処理能力、処理能力の差、待機時間対処理能力などの項目でも最高のスコアを獲得しました。

100トークンの生成時間

GroqのCEO、Jonathan Rossは、「速度は、開発者のアイデアをビジネスソリューションや人生を変えるアプリケーションに変えるために、推論はその目標を達成するために非常に重要です」と述べています。

現在、GroqChatインターフェースを通じて「LPU (言語処理ユニット)」推論エンジンを直接使用することができ、承認されたユーザーにはLlama 2、Mistral、Falconなどを通じてエンジンをテストするためのGroq APIへの早期アクセスも提供されています。

出典: New Atlas

GPTsに何が新しいのか:新しい評価システム「星評価」の導入

Chat GPTsに新しい評価システムが導入されました。これは、美味しいレストランを選ぶ際に星評価を参考にするのと同様、GPTを選択する際にも役立ちます。この新しいシステムにより、ユーザーは星評価を見ながらGPTを試すことができます。

この機能を利用するには、まずGpt Storeにアクセスします。そして、使用したいGPTを選択すると、特定の情報が表示される画面に進みます。

この新しい評価システムは、「GPTsに何が新しいのか」を知りたいと思っているユーザーにとって、非常に便利なツールです。ユーザーは、より簡単に、そして確実に、自分のニーズに合ったGPTを見つけることができるようになります。

「音楽生成AI:Suno」V3 Alpha アクセスが利用可能に!

音楽生成AIのSunoが、Pro & Premierサブスクライバー向けに最新バージョン、V3 Alphaアクセスを開放しました。このアップデートは、ユーザーの皆様からの貴重なフィードバックを反映し、音楽生成の分野でさらに高い目標を目指すものです。Pro & Premierサブスクライバーの皆様には、新しいバージョンを体験いただくために、300の無料クレジットを提供しています。

「音楽生成AI:Suno」V3 Alphaの魅力的な新機能

音楽生成AIのSunoのV3アルファでは、以下のような新機能と改善が施されています。

  • 向上した音質と表現力: まるで生演奏を聴いているかのような、リアルで豊かな音楽体験を実現します。
  • 最大クリップ長の増加: これまで以上に長い、最大2分間の楽曲生成が可能に。物語を語るような楽曲も夢ではありません。
  • 高速な生成: 待ち時間を短縮し、アイデアが湧いたその瞬間に音楽を形にできます。
  • 専用の楽器サポート: ギターやピアノだけでなく、さまざまな楽器での制作が可能に。あなたの音楽世界を広げます。
  • 言語カバレッジの拡大: 世界中の言葉で歌を作れるようになり、グローバルな音楽制作が手の届くところに。
  • どこからでも続けられる機能: V2で作った曲も無駄にならず、新しいバージョンでさらにブラッシュアップ。

V3Alphaは、ただの音楽生成AIを超え、真の音楽パートナーへと進化を遂げています。音楽生成AIのSunoと共に、あなたも音楽制作の新たな地平を開きませんか?

Windows 写真アプリに新機能、「ジェネレーティブ消去」が登場!

Windows 写真アプリに、最新の編集機能「ジェネレーティブ消去」が追加されました。さらに、背景ぼかし、背景の削除・置換など、最近リリースされたAI編集機能も、Arm64デバイスとWindows 10の写真アプリで利用可能になりました。このアップデートは、今日から全チャンネルのWindows Insider(Windows 10のリリースプレビューチャンネルを含む)に向けて順次展開されます。アプリをバージョン2024.11020.21001.0以上に更新してください。

ジェネレーティブ消去とは?

従来からお馴染みの「スポット修正」機能がAIの力を借りて進化し、「ジェネレーティブ消去」として生まれ変わりました。この機能は、写真から不要な背景オブジェクトや雑然とした要素を取り除き、より自然でリアルな結果を実現します。特に、広範囲のオブジェクトを消去する場合にも、その効果を発揮します。

使い方

ジェネレーティブ消去を使用するには、「画像を編集」に進み、「消去」オプションを選択します。消去したいオブジェクトやエリアをブラシでなぞり、必要な精度に合わせてブラシのサイズを調整してください。複数のオブジェクトを一度に取り除きたい場合や、さらに細かいコントロールが必要な場合は、「オートアプライ」を無効にして、消去されるエリアを示すマスクを追加・削除できます。

出典: Windows insider Blog

Adobe AIを活用したドキュメント管理の進歩

Adobeは、デジタル文書の読み取りや作成の体験を向上させるため、生成AIを活用した新機能を発表しました。「Adobe AIアシスタント」として正式にリリースされ、AdobeリーダーとAdobe Acrobat Readerのユーザーは、サブスクリプションプランを通じて、AIアシスタントの機能全体にアクセスできます。

Adobe AIアシスタントの新機能について

  • 文書の知能を引き出す: Acrobat のLiquid Modeを活用し、AIアシスタントは文書の知能をさらに引き出し、AdobeリーダーとAcrobat のユーザーに新機能を提供します。
  • アクセス性の向上: AIアシスタントは、文書をよりアクセスしやすく、理解しやすい形式に変換し、情報の迅速かつ効率的な取り込みを可能にします。
  • サブスクリプションプラン: AIアシスタントの正式リリースに伴い、新しいアドオンサブスクリプションプランが提供され、ユーザーはこれらの革新的な機能にアクセスできるようになります。
  • サマリー機能:長文のドキュメントも、簡潔な要約を通じて迅速に理解できます。読みやすい形式での提供により、情報の把握がしやすくなります。
  • 引用生成:Adobe独自のAIとカスタム属性エンジンが引用を生成し、顧客がAIアシスタントの回答の出典を簡単に確認できるようになります。
  • 情報検索:クリック可能なリンクにより、長文のドキュメント内で必要な情報へ迅速にアクセスできます。これにより、重要な情報の検索と活用がしやすくなります。
  • 文書形式変更:AIアシスタントに要求することで、情報を整理し、メールテキスト、プレゼンテーション、レポートなどの形式にで変更することが可能です。「コピー」ボタンの使用で、情報の切り取り、貼り付け、共有が簡単になります。

出典: Adobe Blog

AIの世界は日々進化しており、来週にはまた新たな発見や技術の進歩が報じられるかもしれません。最新のAIニュースを追い続けることで、技術のトレンドを把握し、自身の知識やプロジェクトに活かすことができます。来週のAIニュースも、ぜひお見逃しなく。


AI最新ニュースまとめ

AI最新ニュースに関するFAQ

Q1: Stable Diffusion 3とは何ですか?

A1: Stable Diffusion 3は、Stability AIによって開発された次世代の画像生成AIモデルです。OpenAIのSoraと同じ「拡散トランスフォーマー」アーキテクチャを採用しており、品質と精度の向上、カスタマイズ可能性、高品質の画像生成、文字認識の改善などが特徴です。

Q2: Google Geminiの最新アップデートは何ですか?

A2: Google Geminiは、歴史的に不正確な画像生成に関する問題を受け、人種差別対策で新しいアップデートを発表しました。このアップデートは、画像生成機能の改善と再発防止に努める内容を含んでいます。

Q3: Gemmaとは何でしょうか?

A3: Gemmaは、GoogleとDeepMindによる最新のオープンソースAIモデルです。Googleの別のAIモデル「Gemini」の研究と技術を基に開発され、AI技術の進化をさらに前進させるものです。

Q4: GroqのLPUとは何ですか?

A4: LPU(言語処理ユニット)は、Groqによって開発されたAI推論チップです。ChatGPTやGeminiなどの大規模言語モデルの実行速度を飛躍的に向上させることができ、リアルタイムでの対話が可能になります。

Q5: Windows 写真アプリに追加された「ジェネレーティブ消去」とは?

A5: 「ジェネレーティブ消去」は、Windows 写真アプリに追加された新しい編集機能です。写真から不要な背景オブジェクトや雑然とした要素を自然に取り除き、よりリアルな結果を実現します。

Q6: Adobe AIアシスタントの新機能にはどのようなものがありますか?

A6: Adobe AIアシスタントは、文書の知能を引き出し、アクセス性を向上させる機能を提供します。サマリー機能、引用生成、情報検索、文書形式変更などが新機能として挙げられます。

#AI技術進化 #StableDiffusion3 #GoogleAIアップデート #画像生成AI #AI倫理問題