「最新AIニュースまとめ」写真が動画に!?マイクロソフト×Meta×Adobeなど画期的テクノロジー続々_2024年4月3週目

アッという間にAIが私たちの生活に飛び込んできました!今週は、写真がアニメーションに動き出す「VASA-1」、AIアシスタント「Meta AI」の一般公開、AIが支援する電動ヒューマノイド「新アトラス」など、まるで映画の世界が現実になったかのような驚きの最新AIテクノロジーが頻繁に登場しています。

Sara Nanase

April 22, 2024

AIの急速な進化により、私たちの生活はこれまでとは全く異なる方向へと大きく変わろうとしています。この記事では、その最前線を切り開くAIの衝撃的な最新トレンドをわかりやすくお伝えします。AI技術の行方に興味がある方は、ぜひご覧ください!

マイクロソフト、写真一枚で話す、歌う動画を生成するAI発表

マイクロソフトが新しい人工知能モデル「VASA-1」を発表しました。このモデルでは、ユーザーが写真と音声サンプルをアップロードするだけで、リアルタイムで対話が可能な顔のアニメーションを生成できます。このモデルは特に、口の動きを自然に再現する点で、既存のリップシンク技術を大きく進化させています。

VASA-1は、ただ前を向いている写真だけでなく、様々な角度からの写真にも対応します。さらに、ユーザーの目の動きや顔の向き、感情まで反映する能力を持っており、ゲーム内のキャラクターアニメーション、ソーシャルメディアのアバター作成、AIを活用した映画制作など、幅広い用途が考えられます。

マイクロソフトの研究チームは、「VASA-1」は、歌に合わせて口を動かす同期も完璧にできるうえ、「モナリザ」のような画像スタイルでの動作も問題なく行えると報告しました。このモデルは、1秒間に45フレーム、512x512ピクセルの画像を生成し、高性能グラフィックスカードを使えば約2分間で処理が完了します。

Microsoft just dropped VASA-1.

This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba

10 wild examples:

1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
— Min Choi (@minchoi) April 18, 2024

ただし、この技術が一般に公開されるかどうかはまだ決まっていません。また、そのリアルな表現力が犯罪に利用されるリスクも指摘されています。写真と音声さえあれば、本物と見間違える動画を生成できるため、詐欺などの犯罪に使用される可能性があります。このため、ディープフェイク技術を超える可能性もあるとされ、悪用防止策と安全な使用についての検討が求められています。

7. Power of disentanglement

Example of same motion sequence with different photos pic.twitter.com/MSLFobwJTx
— Min Choi (@minchoi) April 18, 2024

Alibabaが写真から話せる動画に変えるAI「EMO」を発表

Meta、「Llama3」をオープンソースで公開

FaceBookの親会社、Metaは、18日、自社のSNSプラットフォームにAIチャットボットを導入することを発表しました。これは、昨年9月のベータテスト版公開から7ヶ月後のことです。このチャットボットは、Metaの最新の大規模言語モデル「Llama 3」を基にしています。このAIチャットボットは、フェイスブック、インスタグラム、WhatsApp、メッセンジャーなどで無料で利用できます。

CEOのマーク・ザッカーバーグ氏は、「Meta AIはユーザーの質問に答え、アニメーションを作成し、画像を生成することができます。現在、自由に利用できるLLMの中で最も賢いAIアシスタントだと信じています」と述べました。

Meta AIは、SNSプラットフォームのアプリ検索窓に組み込まれており、ユーザーが簡単に質問し、回答を得ることができます。Metaは、GoogleやMicrosoftとの提携を通じて、これらの検索エンジンの結果を活用して質問に答えるMeta AIを提供します。また、「meta.ai」ウェブサイトでは、数学の問題を解いたり、専門的なメールを書いたりするのにも助けを求めることができ、会話を記録することもできます。ただし、Meta AIの画像生成機能は、WhatsAppとウェブサイトでベータ版として提供されます。

Llama3は、80億個の小規模モデルと700億個の大規模モデルの2つでリリースされました。生成型AIが情報を学習し、記憶するための「パラメータ」が多いほど、AIの性能も高くなります。700億個のパラメータを持つモデルは、数学、物理学、歴史などでAIの問題解決能力を評価するMMLUで79.5点を獲得し、Googleのジェミナイプロ1.0（71.8点）を上回りました。

Meta AIは、米国、カナダ、ニュージーランド、オーストラリアなど10カ国以上で英語版が先行してリリースされています。日本など他の国のリリース日程はまだ発表されていません。

Meta、「Llama3」をオープンソースで公開、Hugging Faceでのテスト方法

ボストン・ダイナミクスが新しい電気式ヒューマノイドロボット「アトラス」を公開

ボストン・ダイナミクス社は、ヒューマノイドロボット「Atlas（アトラス）」の油圧式モデルの引退から新しいモデルへの切り替えを発表しました。新しいアトラスは、以前のモデルと異なり電気を動力源として使用し、人工知能（AI）も搭載されています。このロボットは、そのユニークな動きで注目を集め、来年からはヒョンデ自動車の生産ラインに導入される予定です。

新しいアトラスは、よりスリムなデザインになり、動きも以前よりスムーズになりました。たとえば、ロボットが起き上がる動きは、まるで人間がベッドから起きるような自然さが感じられますが、同時に少し不気味な印象も与えます。

この新型ロボットの特徴は、その動きの自然さと、環境への適応能力の高さにあります。例えば、従来のモデルと比べて転倒しても自力で起き上がることができるようになり、人間の介入なしで作業を再開できます。これは、製造現場やその他の作業環境において大きな利点となります。

ボストン・ダイナミクスのCEOであるロバート・プレイター（Robert Playter）氏によると、このロボットは「人間の動きを模倣するだけでなく、人間にはできない動きも実現する」と述べています。このアプローチによって、ロボットは狭い空間での作業効率を向上させることができると期待されています。

アトラスのデザインは、よりフレンドリーで開かれた印象を与えることを意図しており、その頭部には大きな丸いディスプレイが採用されています。このディスプレイは、ロボットが人間との対話においても使えるように設計されており、親しみやすさを提供する要素となっています。

この電気式アトラスの開発は、ボストン・ダイナミクスがヒョンデ自動車グループと協力して進めており、実際の製造現場でのテストを来年から開始する予定です。このテストを通じて、ロボットが実際の作業現場でどれだけの性能を発揮できるかが評価されることになります。

AIとロボットの新たな出会い。OpenAIロボットが示す未来

Adobe、Premiere Proの最新動画生成型AIを公開

AdobeがPremiere Proで新しい生成型AI（人工知能）ツールを導入し、動画制作と編集のワークフローを改善する新しいAI機能を紹介しました。この技術は、動画編集をより速く、創造的にするのに役立ちます。たとえば、動画から不要なオブジェクトを簡単に除去したり、新しいオブジェクトを追加したりすることができます。また、短いクリップを延長してスムーズなトランジションを作ることもできます。

これらの機能は、Adobeの新しいAIモデル「Firefly for Video」によって支えられています。このモデルは画像、ベクター、デザイン、テキスト効果など、さまざまな要素を統合して動画を編集します。さらに、Adobeは「Firefly for Video」に加えて、さまざまな第三者AIモデルを統合してPremiere Proをさらに強力で柔軟なツールに拡張する計画です。

たとえば、「Text to Image」機能を使用すると、単にテキストを入力して参照画像をアップロードするだけで、完全に新しい動画を作成することができます。この機能はアイデアを視覚化し、ストーリーボードを作成し、実際の動画を補完するのに役立ちます。

また、AdobeはAIを基盤としたオーディオ編集ツールも開発中であり、これによりユーザーはオーディオの品質を細かく調整することができます。新しい「インタラクティブフェードハンドル」機能を使えば、オーディオのトランジションを素早く簡単に調整することが可能です。AIはオーディオクリップを自動的に分類し、必要な効果を手軽に追加できる新しい機能を提供します。

これらすべての技術は、映像編集者が日常的な作業で直面する問題を解決し、より集中し、より創造的な作業を行う余裕を提供することに焦点を当てています。Adobeは、このような新技術を通じて、クリエイターが想像したことを実現できるよう支援しています。

Adobe、動画生成AI「Sora」、「Runway」、「Pika」をプレミアプロに追加すると発表

GoogleはAIに1000億ドル以上を投資する予定

Googleは、今後数年間で人工知能（AI）に1,000億ドル以上を投資する計画です。この計画は、「アルファゴの父」として知られるGoogle DeepMindのCEO、デミス・ハサビス氏がカナダのバンクーバーで開催されたTEDカンファレンスで発表しました。

カンファレンスでは、MicrosoftとOpenAIが共同で行う「スターゲイト（Stargate）」というプロジェクトについての質問がありました。このプロジェクトは、1000億ドルを投資してスーパーコンピュータを含むデータセンターを構築するというものです。

ハサビス氏は、具体的な数字については詳しく話さなかったものの、Googleがその金額以上を投資する可能性があると述べ、Googleの親会社であるアルファベットがMicrosoftを含む競合他社よりも優れたコンピューティング性能を持っていることを強調しました。

彼は、2010年に設立されたDeepMindがGoogleに買収された理由の一つが、人間レベルの汎用人工知能（AGI）を達成するためには膨大なコンピューティングリソースが必要であることを理解していたからだと説明しました。Googleは豊富なコンピューティングリソースを持っており、その点で優位に立っています。

さらに、ChatGPTによって世界的な注目を集める中で、AIシステムがまだ不完全でエラーが生じやすいにもかかわらず、一般の人々がAIシステムを受け入れる準備ができていることを感じていると彼は付け加えました。

チャットGPTは、イヤホンで手軽に利用できる

Nothing社が新しいイヤホンを発表しました。この新製品は、人気のあるAI技術、ChatGPTを利用しています。これにより、イヤホンの茎をつまむだけで、ChatGPTに質問ができるようになりました。これは、SiriやGoogleアシスタントのように使える機能ですが、OpenAIのプラットフォームを直接活用しています。

この新しいイヤホンは、音質も改良されており、新しいドライバーシステムにより、前モデルよりも音がクリアになっています。また、バッテリー容量も25％向上し、アクティブノイズキャンセリング機能もスマートに環境音に適応します。

モデルの価格は手頃で、Earは$149で、発送は4月22日から開始されます。このように、Nothing社のイヤホンは、技術とスタイルの両方で新しい選択肢を提供しているのです。

ロジクール、マウスに「チャットGPT」専用キー追加

ロジクールは、マウス上のボタンを押すだけで、ChatGPTを呼び出すことができる「M750」を発売しました。このマウスには、マウスホイールの上部に青緑色の光るChatGPTボタンが付いています。

このボタンを使うには、まずロジクールが提供する「Logi Option+」アプリで、「Logi AI Prompt Builder」というソフトウェアツールとChatGPTボタンを連携させる必要があります。連携すると、作業中にChatGPTボタンを押すと、別の小さなチャット画面が開きます。

例えば、画面上のテキストを選択してChatGPTボタンを押すと、そのテキストがチャット画面に入力されます。ここで、「要約する」「メールを書く」などの機能を選んでChatGPTに指示を出せば、AIが作業を代行してくれます。文章の長さやトーンも調整できるので、ユーザーの希望に応じた出力が得られます。

このマウスは、英語版のロジオプションプラスアプリに対応したロジクールデバイスがあれば、誰でも使用できます。価格は約$49.99と手頃で、AIの力を日常的に活用したい方におすすめの製品です。

出典：Venturebeat

AI最新ニュースまとめ

マイクロソフトのVASA-1に関するFAQ

Q1:マイクロソフトのVASA-1はどのような技術ですか？

A1:VASA-1は、ユーザーが提供する写真と音声サンプルを基に、リアルタイムで対話可能な顔のアニメーションを生成する新しい人工知能モデルです。この技術は特に、口の動きを自然に再現することで既存のリップシンク技術を進化させています。

Q2:VASA-1の使用用途にはどのようなものがありますか？

A2:VASA-1の技術は、ゲーム内のキャラクターアニメーション、ソーシャルメディアでのアバター作成、AIを活用した映画制作など、多岐にわたる用途に適用できます。ユーザーの表情や感情を反映する能力も持っており、非常にリアルな表現が可能です。

Q3: VASA-1での動画生成の処理時間はどのくらいですか？

A3:VASA-1は、1秒間に45フレーム、512x512ピクセルの画像を生成します。高性能グラフィックスカードを使用すると、約2分間で処理が完了します。この高速処理は、プロフェッショナルな映像制作にも対応可能です。

Metaの「Llama3」に関するFAQ

Q1: Metaの「Llama3」とは何ですか？

A1:「Llama3」は、Metaが開発した最新の大規模言語モデルで、80億個のパラメータを持つ小規模モデルと700億個のパラメータを持つ大規模モデルの2つのバージョンでリリースされました。このモデルは、特にAIの問題解決能力を評価するためのMMLUで79.5点を獲得し、その性能の高さを証明しています。

Q2: Meta AIはどのような機能を持っていますか？

A2:Meta AIは、ユーザーの質問に答える、アニメーションを作成する、画像を生成するなどの機能を持っています。また、特定のアプリの検索窓に統合されており、ユーザーが簡単に質問して迅速に回答を得ることができるようになっています。さらに、専門的なメールの作成や数学の問題の解決支援も提供しています。

Q3: Meta AIはどのプラットフォームで利用できますか？

A3:Meta AIは、フェイスブック、インスタグラム、WhatsApp、メッセンジャーなどのMetaのSNSプラットフォームで無料で利用できます。画像生成機能は、WhatsAppと「meta.ai」ウェブサイトでベータ版として提供されています。

Q4: Meta AIのリリースはどの国で行われていますか？

A4:Meta AIは、米国、カナダ、ニュージーランド、オーストラリアなど10カ国以上で英語版が先行してリリースされています。日本を含む他の国々のリリース日程はまだ発表されていません。

Adobe Premiere Proに関するFAQ

Q1: Adobe Premiere Proの新しい生成型AI機能とは何ですか？

A1:Adobe Premiere Proの新しい生成型AI「Firefly for Video」は、動画から不要なオブジェクトを除去したり、新しいオブジェクトを追加したりすることが可能です。また、短いクリップを延長してスムーズなトランジションを作ることもできるなど、動画編集をより速く、創造的に行うことを支援します。

Q2: 「Firefly for Video」はどのような技術を基にしていますか？

A2:「Firefly for Video」は、画像、ベクター、デザイン、テキスト効果などさまざまな要素を統合して映像を編集する新しいAIモデルです。Adobeはこのモデルを基に、さまざまな第三者AIモデルとも統合して、Premiere Proをさらに強力で柔軟な編集ツールに拡張する計画です。

Q3: Premiere ProのAI機能で「Text to Image」機能とは何ですか？

A3:「Text to Image」機能を使用すると、テキストを入力し参照画像をアップロードするだけで、完全に新しい動画を作成することができます。この機能は、アイデアを視覚化し、ストーリーボードを作成し、実際の動画を補完するのに役立ちます。

Q4: AdobeはAIを用いたオーディオ編集ツールも開発していますか？

A4:はい、AdobeはAIを基盤としたオーディオ編集ツールも開発中です。これにより、オーディオの品質を細かく調整することができ、新しい「インタラクティブフェードハンドル」機能を使ってオーディオのトランジションを素早く簡単に調整することが可能です。AIはオーディオクリップを自動的に分類し、必要な効果を手軽に追加できる機能も提供します。

「GoogleがAIに投資」に関するFAQ

Q1: GoogleがAIに投資する予定の金額はいくらですか？

A1:Googleは今後数年間で人工知能（AI）に1,000億ドル以上を投資する計画です。この投資は、人間レベルの汎用人工知能（AGI）を達成するために必要な膨大なコンピューティングリソースを確保する目的があります。

Q2: デミス・ハサビス氏はどのような発言をしましたか？

A2:デミス・ハサビス氏は、TEDカンファレンスでGoogleが1,000億ドル以上をAIに投資する可能性があると述べました。彼はまた、Googleの親会社であるアルファベットが競合他社よりも優れたコンピューティング性能を持っていることを強調しました。

Q3: GoogleのAI投資の背景にはどのような理由がありますか？

A3:Googleは、人間レベルの汎用人工知能（AGI）の達成には膨大なコンピューティングリソースが必要であるとの認識のもと、大規模な投資を行うことを計画しています。これにより、DeepMindのような高度なAI開発を進め、技術的な優位性を保つことが目的です。

イヤホンでChatGPTを利用に関するFAQ

Q1: Nothing社の新しいイヤホンにはどのような特徴がありますか？

A1:Nothing社の新しいイヤホンは、ChatGPTを搭載しており、イヤホンの茎をつまむだけでChatGPTに質問できる機能が備わっています。この機能は、SiriやGoogleアシスタントと同様に使うことができます。また、音質が改良されており、新しいドライバーシステムにより前モデルよりも音がクリアになっています。さらに、バッテリー容量は25％向上し、アクティブノイズキャンセリング機能も搭載しています。

Q2: 新しいイヤホンの価格と発売日はいつですか？

A2:新しいイヤホン「Ear」の価格は149ドルで、発送は4月22日から開始されます。

「ロジクール」のマウスに関するFAQ

Q1: ロジクールの新しいM750マウスにはどのような特徴がありますか？

A1:ロジクールの新しいM750マウスは、マウスホイールの上部に設置された青緑色の光るChatGPTボタンが特徴です。このボタンを押すだけでChatGPTを呼び出すことができ、AI技術を手軽に活用することが可能です。

Q2: ChatGPTボタンの使い方はどうすれば良いですか？

A2:ChatGPTボタンを使うには、ロジクールが提供する「Logi Option+」アプリと「Logi AI Prompt Builder」というソフトウェアツールとを連携させる必要があります。連携後、作業中にChatGPTボタンを押すと、別の小さなチャット画面が開き、AIがテキストベースでのアシスタンスを提供します。

Q3: ChatGPTボタンの機能を具体的に教えてください。

A3:ChatGPTボタンを使用すると、例えば画面上のテキストを選択してボタンを押すと、そのテキストがチャット画面に入力されます。ユーザーは「要約する」「メールを書く」などの機能を選んで指示を出すことができ、AIが作業を代行してくれます。文章の長さやトーンの調整も可能で、ユーザーの希望に応じた出力が得られます。

Q4: このマウスの価格と利用可能な言語は何ですか？

A4:M750マウスの価格は約$49.99で、英語版のロジオプションプラスアプリに対応したロジクールデバイスがあれば、誰でも使用できます。

#MetaAI #Llama3 #AdobeAI #PremierePro #Google #ChatGPT #Logitech