「AI最新ニュースまとめ」:「チャットGPT」から「Claude 3」へ、OpenAI新機能、声から感情を読み取るAIなど

AI が本当に私たちの感情を理解できるのか、疑問に思ったことはありませんか? あるいは、AI 言語モデルの王座に座っているのは誰なのか気になっているかもしれません。今週も、AIに関する驚きの進展がありました。この記事でそれらを紹介します。AIが、私たちとテクノロジーとのやり取りをどのように変えているのかを見てみましょう。

Tanaka Haruki
March 30, 2024

LLMの王座は、「チャットGPT」から「Claude 3」へ

これまで、AIの大規模言語モデル(LLM)と言えばOpenAIのチャットGPT 4が主役でした。しかし、2024年に入り、Anthropic社の「Claude 3」がこの地位を初めて奪取しました。Claude 3 Opusは、Chatbot ArenaというAI言語モデルの能力を比較する人気サイトで、チャットGPT-4を初めて上回りました。これは、AI言語モデルの世界で大きな転換点です。

Claude 3 OpusがGPT-4 Turboを相手にリードを奪還
  • トップパフォーマンス:Claude 3 Opus は、ほとんどのベンチマークでトップの大規模言語モデルとして公式に認められており、チャットGPT-4 のパフォーマンスを上回っています
  • ユーザーの好み: 実際の人間が使用して好きなチャットボットに投票するプラットフォームで、Claude 3 Opus がトップの座を獲得しました。これは、Claude 3 Opus が、ChatGPT-4 を含む他のモデルと比べてユーザーの支持率が非常に高く、ユーザーの圧倒的な支持を得ている事を示しています。
  • 特殊な機能:チャットGPT とは異なり、Claude 3 Opus は画像の生成や Web の検索を行わないですが、他の多くの用途で優れていることが示唆されており、画像生成やウェブ検索以外の分野で特に優れた能力を発揮します。
  • 投資とサポート:Amazon が Anthropicに27億5000万ドルを追加投資したことは、Claude 3 Opus の機能と将来性にAmazon が強い信頼を寄せていることを示しています。

「Claude 3」について詳しくは、こちらの「OpenAIのライバル「Claude 3」!GPT-4とGeminiを超えたAIの進化とは?」もぜひご覧ください。

OpenAIのSORA新しい映像公開

OpenAIは、一部のクリエイターにSORAの早期アクセスを提供し、その機能を試してユニークなコンテンツを生み出す機会を与えました。作成された映像には、飛ぶ豚、ファンタジー生物、クジラとイカやクジラとタコのような混合生物が登場し、SORAの驚異的な創造力を見せています。これは、SORAがコンテンツ制作においてその多様性と、魅力的なコンテンツを生み出す潜在力を示しています。

特に、「Airhead」というビデオは、ヘリウム風船の頭を持つキャラクターの物語で注目を集め、視覚的なストーリーテリングで際立っています。これは、SORAが持つ魅力的なコンテンツ制作の可能性を示しています。

さらに、OpenAIは、映画業界と協力してSORAをハリウッドでの使用方法を探っています。これは、AI技術を活用したツールがコンテンツ制作、ストーリーテリング、エンターテインメント業界を変革する重要な可能性を示唆しています。

将来的には、SORAがハリウッドと協力してさらに進化し、創造的なコンテンツ制作において重要な役割を果たすことが期待されています。

OpenAI「Sora」新しい映像ついて詳しくは、こちらのOpenAI「Sora」新しい映像公開: AI映像制作の新標準を目指してもぜひご覧ください。

イーロン・マスク、Xプレミアム会員向けにAIチャットボット「Grok」提供拡大

イーロン・マスク氏が率いるX(旧Twitter)は、プレミアム会員向けにAIチャットボット「Grok」の提供範囲を拡大すると発表しました。これは、マスク氏の会社「X」AIが3月にGrokの大規模言語モデルをオープンソース化した後の動きです。

Grok提供拡大の背景

今回の発表では、従来の「プレミアム+」プランに加え、より手頃な価格のプレミアムプラン加入者もGrokを利用できるようになります。

最近のデータによると、Xの使用率は減少しており、特にマスク氏による買収以降、利用者離れが目立ちます。さらに、マスク氏が広告主との戦いを展開していることも、会社の収益見通しに悪影響を及ぼしている可能性があります。

Grok提供拡大の理由は、OpenAIのチャットGPTやAnthropicのClaudeなど、他の人気チャットボットとの競争力を強化すると同時に、減少傾向にある「X」の利用者数を増加させる狙いがあると見られます。

Grok提供拡大のメリット

Grokは、他のAIチャットボットが扱わないようなトピックにも回答できるという特徴があり、マスク氏自身も「反抗的な答え」も期待できると述べています。特に、「X」のリアルタイムデータにアクセスできる能力は、競合他社にはない大きな魅力です。

Grokの課題

一方で、「X」のユーザー数が減少している現在、Grokが提供するデータの価値は変わってきている可能性もあります。Grokの提供拡大が、Xの利用者数増加に繋がるかどうかは未知数です。しかし、AIチャットボットは、今後ますます重要な役割を果たしていくと考えられるため、Xにとって重要な戦略となる可能性は十分にあります。

「Grok」ついて詳しくは、こちらのイーロン・マスクがAIチャットボット「Grok」を公開もぜひご覧ください。

OpenAI、チャットGPT-4とDALL-E 3に新機能追加?

OpenAIが、チャットGPT-4とDALL-E 3に新機能を導入する計画をしているという嬉しい知らせが届きました。「X」ユーザーのTibor Blaho氏が、いくつかの証拠を発見したのです。

チャットGPT-4の新機能

まず、チャットGPT-4ではメッセージ制限がなくなる可能性があります。現在、チャットGPTのプレビュー版では3時間に40件という制限がありますが、Blaho氏が発見した新しいモデルスイッチでは、制限が表示されていません。さらに、「Model Tuner Selector」という機能も追加されるようです。これは、簡単なリクエストはGPT-3.5で処理し、複雑なリクエストはチャットGPT-4で処理することで、処理時間を短縮し、ユーザーのGPT-4の割り当てを節約する機能です。この機能は、チャット設定でオフにすることもできます。

「Model Tuner Selector」機能

さらに、OpenAIは「upgraded response(アップグレードされた回答)」機能も実験しているとのことです。これは、ユーザーがボタンをクリックするだけで、GPT-3.5の回答をGPT-4の回答にアップグレードできる機能です。OpenAIは、無料版よりも有料版の方が品質が優れているため、より多くのユーザーを有料版に誘導しようとしているのかもしれません。

Upgraded response(アップグレードされた回答)機能

Blaho氏は、OpenAIが将来的にChatGPTに匿名使用オプションを導入する可能性もあると示唆しています。これにより、ユーザーはアカウントを作成せずにチャットボットを試用することができ、アクセスの障壁が低くなります。ただし、アカウントを作成すれば、チャット履歴の保存、チャットの共有、体験のパーソナライズなどの利点を得ることができます。

DALL-E 3の新機能

DALL-E 3の更新については、画像エディター機能が追加される予定です。この機能では、画像の一部を選択して、チャットで説明を入力することで、その部分を修正することができます。OpenAIは、画像とエディターに焦点を当てた新しいレイアウトも開発していると言われています。

OpenAIの新機能は、いつ?

これらの機能はあくまでもテスト段階であり、実際にリリースされるかどうかはわかりませんが、OpenAIがこれらの機能を開発していることは確実です。

DALL-E 3は、MidjourneyやIdeogramなどの競合製品に追いつくために、多くの機能追加が必要です。しかし、機能が増えれば複雑さも増してしまうため、OpenAIは難しい選択を迫られることになるでしょう。いずれにしても、OpenAIが今後どのような機能をリリースするのか、楽しみですね!

「DALL-E 3」ついて詳しくは、こちらのDALL-E 3:画像生成のプロンプトとコツDALL-E 3を無料で使いこなす方法!もぜひご覧ください。

AIがアートを生み出す!MITの研究者が開発した技術「DMD」

最近、AIは目覚ましい進歩を遂げており、なんと絵画や動画のようなアート作品まで生み出すことができるようになりました。これは「Diffusion models(拡散モデル)」と呼ばれる技術によって実現されています。

Diffusion Models(拡散モデル)って?

拡散モデルは、最初は、ノイズだらけの状態から始まり、徐々に細かい部分を追加していくことで、最終的に鮮明な画像や動画を生み出す技術です。まるで、最初は何も描かれていないキャンバスに、少しずつ色や形を加えていくようなイメージです。

しかし、従来の拡散モデルには、完成までに時間がかかってしまうという大きな課題がありました。まるで、絵画を完成させるまでに何日も何週間もかかるようなイメージです。

MITの研究者が開発した「DMD」技術

そこで、MITの研究者たちは、従来の拡散モデルの課題を克服するために、画期的な技術を開発しました。それが「Distribution Matching Distillation(DMD)」と呼ばれる技術です。

DMDは、従来の拡散モデルのように複数のステップに分けて処理を行うのではなく、たった一つのステップで画像や動画を生成することができる技術です。これは、まるで優秀な先生が生徒に知識(teacher-student model)を教えるように、AIモデルに効率的に学習させることで実現されています。その結果、画像の質を落とすことなく、生成速度を大幅に速めることができます。

DMD技術の驚くべき成果

  1. 速度の大幅な向上:従来の拡散モデルを使用した画像生成に比べ、DMDを使用すると生成速度が30倍速くなります。これは、画像やビデオを作る際の計算時間を大幅に削減することを意味します。デザインの分野で働く人々は、この速度の向上により、アイデアをより迅速に形にできるようになります。
  2. 画像の質の維持・向上:DMDは速度だけではありません。この技術を使用して生成された画像は、高品質を維持しています。つまり、速く生成できるだけでなく、その結果も美しいというわけです。これにより、アーティストやデザイナーは、創作活動においてより大胆な試みができるようになります。
  3. 広範囲な応用可能性:DMD技術の利点は、画像生成に留まりません。この技術により、デザインツールの向上薬物発見3Dモデリングなど、さまざまな分野での革新が期待されます。特に、迅速さと効率が求められる分野において、この技術のポテンシャルは計り知れません。

DMD技術の展望

DMD技術は、まだ改善の余地があります。特に、より複雑なテキストから画像を生成する際の品質にわずかなギャップが存在しますが、これは将来の研究で解決される可能性があります。また、教師モデルの進化によって、生徒モデルの性能も向上することが期待されます。DMD技術によって、AIが生成する画像の世界は新たな可能性を迎えています。その速度と品質のバランスは、多くの分野での革新を促進し、私たちの創造性を新たなレベルへと引き上げることでしょう。

出典:MIT News

声だけで感情を読み取るAIが登場!「Hume AI」

Hume AIという会社が、人間の声からなんと53種類もの感情を読み取る人工知能(AI)を作りました。これまでのAIよりも人間の感情を細かく理解できるようになるとして注目されています。

Hume AIが開発した「EVI」と呼ばれるAIは、今までのように文字入力ではなく、音声で話しかけるタイプです。つまり、パソコンやスマホのマイクに向かって話すと、AIがあなたの声から感情を理解します。

Hume AIは、世界中の人々から集めた膨大な話声データを使って、AIを学習させました。これにより、喜び、悲しみ、怒り、恐怖といった基本的な感情だけでなく、憧れ、気まずさ、退屈、苛立ち、イライラ、平静、満足、失望、ためらい、疑い、驚き、戸惑いといった、もっと微妙な感情まで理解できるようになりました。

Hume AIは、感情認識の技術を良い目的に使うために、「Hume Initiative(ヒューム イニシアチブ)」という非営利団体も支援しています。この団体は、社会学者、倫理学者、サイバー法律の専門家、AI研究者たちで構成されていて、感情認識の技術をポジティブに使うための研究をしています。

Hume AIは、人間とAIのコミュニケーションをもっと自然で、効果的なものにしてくれると期待されています。

AI最新ニュースまとめ

「チャットGPT」から「Claude 3」に関するFAQ

Q1:「チャットGPT」と「Claude 3 Opus」の主な違いは何ですか?

A1:「チャットGPT」はOpenAIによって開発されたAIの大規模言語モデルですが、画像の生成やWeb検索などの機能を持っています。一方、「Claude 3 Opus」はAnthropic社によって開発され、画像生成やウェブ検索を行わない代わりに、他の多くの用途で優れた能力を発揮し、多くのベンチマークで「チャットGPT-4」を上回るパフォーマンスを見せています。

Q2:「Claude 3 Opus」と「チャットGPT-4」の性能を比較する際に重視されるポイントは何ですか?

A2:性能比較では、各モデルの言語理解能力、応答の正確性、多様な用途での適用性などが重視されます。特に「Claude 3 Opus」は、画像生成やウェブ検索以外の分野で特に優れた能力を発揮し、これが多くのベンチマークで「チャットGPT-4」を上回る結果となっています。

Q3:Anthropicによる「Claude 3 Opus」の開発にAmazonはどのように関与していますか?

A3:AmazonはAnthropicに対し、27億5000万ドルの追加投資を行いました。この大規模な投資は、Amazonが「Claude 3 Opus」の機能と将来性に強い信頼を寄せていることを示しています。この支援により、「Claude 3 Opus」の開発と改良がさらに進むことが期待されます。

Q4:AI言語モデルの将来に「Claude 3 Opus」の登場がどのような意味を持つのでしょうか?

A4:「Claude 3 Opus」の登場とその成功は、AI言語モデルの分野における競争の活性化を意味します。特に画像生成やウェブ検索以外の分野で優れた能力を示したことにより、AI技術の応用範囲がさらに広がることが期待されます。また、複数の企業や研究機関が競い合うことで、技術の革新が加速されることにもつながります。

SORAに関するFAQ

Q1: SORAの新しい映像の特徴は何ですか?

A1:SORAの最大の特徴は、その驚異的な創造能力にあります。混合生物やユニークなキャラクターを生み出すことが可能で、映像制作において多様性と革新性を提供します。「Airhead」というビデオのように、ヘリウム風船で頭を持つキャラクターの物語を通じて、視覚的なストーリーテリングの新たな可能性を探ることができます。

Q2:SORAはどのようにして映像制作に革新をもたらしますか?

A2:SORAはAI技術を活用して、従来では考えられなかったような創造的でユニークなビジュアルコンテンツの制作を可能にします。映画業界との協力を通じて、SORAはストーリーテリングやエンターテインメント業界におけるコンテンツ制作の方法を根本から変革する可能性を持っています。

Q3:SORAをハリウッドで使用するメリットは何ですか?

A3. ハリウッドでSORAを使用することのメリットは様々な分野にわたります。特に、創造的なビジョンを具現化する際の自由度が大幅に増加し、映画製作のコスト削減や効率化にも寄与する可能性があります。さらに、観客に新たな視覚体験を提供することで、エンターテインメントの質を向上させることができます。

Q4: SORAの将来の展望は?

A4:SORAは、映像制作やストーリーテリングの分野において、革新的な変化をもたらすことが期待されています。ハリウッドとの協力を深めることで、SORAは創造的なコンテンツ制作における重要なツールとなり、映画業界を含むエンターテインメント全般における新たな標準を築くことが予想されます。

Grok提供拡大に関するFAQ

Q1: Grokとは何ですか?

A1: Grokは、イーロン・マスク氏が率いるX(旧Twitter)が提供するAIチャットボットです。他の大規模言語モデルとは異なり、Xのリアルタイムデータにアクセスできる能力が特徴で、反抗的な答えも期待できるとされています。

Q2: Grokの提供範囲が拡大された理由は何ですか?

A2: 提供範囲の拡大は、Xの利用者数を増加させる狙いと、OpenAIのチャットGPTやAnthropicのClaudeなど他の人気チャットボットとの競争力を強化する目的があります。特に利用者数の減少傾向にあるXにとって、Grokの提供拡大は重要な戦略となります。

Q3: Grokの使用が可能になるプランは?

A3: 従来の「プレミアム+」プランに加え、今回の提供拡大により、より手頃な価格のプレミアムプラン加入者もGrokを利用できるようになります。これにより、より多くのユーザーがGrokの機能を体験することが可能となります。

Q4: Grokの提供拡大がXにもたらす影響は?

A4: Grokの提供拡大は、利用者の興味を引き、Xの使用率を増加させることを狙いとしています。しかし、実際にXの利用者数増加に繋がるかどうかは未知数です。一方で、AIチャットボットの需要は高まっており、Grokの提供拡大はXにとって長期的に見て重要な戦略となる可能性が高いです。

ChatGPT-4 と DALL-E 3 の新機能に関する FAQ

Q1: ChatGPT-4 の新機能には何が含まれますか?

A1: ChatGPT-4 では、メッセージ制限の撤廃や「Model Tuner Selector」機能の追加が計画されています。これにより、簡単なリクエストは GPT-3.5 で処理し、より複雑なリクエストは ChatGPT-4 で処理することが可能になり、処理時間の短縮とリソースの節約が期待されます。さらに、「upgraded response」機能を通じて、GPT-3.5 の回答を GPT-4 の回答にアップグレードするオプションも検討されています。

Q2: 「Model Tuner Selector」とはどのような機能ですか?

A2: 「Model Tuner Selector」は、ユーザーのリクエストに応じて、最適な GPT モデルを自動的に選択して処理する機能です。簡単な問い合わせには GPT-3.5 を、より高度な問い合わせには ChatGPT-4 を使用します。これは、ユーザー体験を向上させると同時に、GPT-4 のリソースを効率的に利用するためのものです。

Q3: DALL-E 3 にはどのような新機能が追加されますか?

A3: DALL-E 3 には、画像エディター機能が追加される予定です。これにより、ユーザーは画像の特定の部分を選択し、その部分を修正するための指示をチャットで入力することが可能になります。OpenAI は、この新しい機能に焦点を当てたレイアウトの開発も進めています。

Q4: これらの新機能のリリース予定はいつですか?

A4: 現時点では、これらの新機能が実際にリリースされるかどうか、またいつリリースされるかは明らかにされていません。これらの機能はテスト段階にあり、開発中であることが確認されていますが、正式なリリース日は未定です。

Q5: OpenAI の新機能開発の目的は何ですか?

A5: OpenAI は、ユーザー体験の向上、リソースの効率的な利用、および競合他社との競争力の維持を目指して新機能を開発しています。これらの新機能により、ChatGPT-4 と DALL-E 3 のユーザビリティと機能性が向上し、より広範なニーズに応えることが期待されています。

DMD技術に関するFAQ

Q1: DMD技術とは何ですか?

A1: DMD(Distribution Matching Distillation)技術は、MITの研究者によって開発された、拡散モデルの生成速度と品質を大幅に改善する技術です。従来の複数ステップのプロセスではなく、一つのステップで画像や動画を生成することが可能になります。

Q2: DMD技術の主な利点は何ですか?

A2: DMD技術の主な利点は、生成速度の大幅な向上と画像の高品質の維持です。具体的には、従来の拡散モデルに比べて30倍の速度で画像を生成でき、生成された画像は高品質を維持します。これにより、デザイナーやアーティストはアイデアを迅速に形にすることが可能となります。

Q3: DMD技術はどのような分野で応用されますか?

A3: DMD技術の応用可能性は非常に広範囲にわたります。画像生成だけでなく、デザインツールの向上、薬物発見、3Dモデリングなど、様々な分野での革新が期待されます。特に、迅速さと効率性が求められる分野でそのポテンシャルを発揮することが予想されます。

Q4: DMD技術にはどのような課題がありますか?

A4: DMD技術は非常に有望ではありますが、複雑なテキストから画像を生成する際にわずかな品質のギャップが存在することが課題とされています。これは、将来の研究と技術の進歩によって改善される可能性があります。

Q5: DMD技術の将来の展望はどうなっていますか?

A5: DMD技術は今後も改善が期待されており、教師モデルの進化によって生徒モデルの性能も向上することが予想されます。この技術によって、AIが生成する画像の世界は新たな可能性を迎え、多くの分野での革新を促進し、私たちの創造性を新たなレベルへ引き上げることが期待されています。

Hume AIに関するFAQ

Q1: Hume AIとは何ですか?

A1: Hume AIは、人間の声から53種類もの感情を読み取ることができるAI技術を開発した企業です。この技術により、AIは人間の感情をより細かく理解することが可能になります。

Q2: EVIとは何ですか?

A2: EVIはHume AIによって開発された人工知能で、音声入力を通じて人間の感情を理解する能力を持っています。ユーザーがパソコンやスマートフォンのマイクに向かって話すと、EVIはその声から感情を読み取ります。

Q3: Hume AIはどのようにしてAIを感情を理解させることができるのですか?

A3: Hume AIは、世界中の様々な人々から集めた話声データを使用してAIを学習させました。これにより、AIは喜び、悲しみ、怒り、恐怖などの基本的な感情だけでなく、より微妙な感情も理解することが可能になりました。

Q4: Hume AIの技術はどのような分野で利用される予定ですか?

A4: Hume AIの技術は、人間とAIのコミュニケーションを自然で効果的なものにするために開発されています。そのため、カスタマーサポート、医療、教育、エンターテイメントなど、幅広い分野での応用が期待されています。

Q5: Hume Initiativeとは何ですか?

A5: Hume InitiativeはHume AIによって支援されている非営利団体で、感情認識技術をポジティブに使うための研究を行っています。社会学者、倫理学者、サイバー法律の専門家、AI研究者たちで構成されており、技術の倫理的な使用を促進しています。

#AI #チャットGPT #Claude3 #感情認識AI #OpenAI #HumeAI #AI技術進化 #AI言語モデル #AIアート #AI倫理