「最新AIニュースまとめ」週刊AIニュースダイジェスト： OpenAIの東京進出からAppleの最新技術まで_2024年4月1週目

AIの世界は絶えず進化しており、今週も様々な発表がありました。OpenAIは、人間の声を真似る技術「Voice Engine」を発表し、さらに、登録なしでChat GPTを利用できるようになりました。東京には、新しいオフィスが設立され、DALL-E 3には画像編集機能が追加されています。

Sara Nanase

April 9, 2024

Microsoftとの間で大規模データセンターの建設が進行中であります。Appleからは、Vision Proの「Persona」機能や、Siriをより賢くするための新技術が紹介されました。これらのトピックを簡潔に解説します。

OpenAIが人の声を真似る「Voice Engine」公開

OpenAIが、人の声を真似ることができる「Voice Engine」というAIモデルを発表しました。この技術は、チャットGPTの声機能に使われていた技術をベースにしていますが、今回、発表されたバージョンは、特定の人物の声を模倣できる新しいものです。たった15秒の音声サンプルから、その人物の声に非常に近い音声を生成します。

OpenAIは、話すことが困難な人々を支援したり、教育目的で利用されるなど、この「Voice Engine」の技術が役立つとしています。ただし、安全性を重視し、信頼できる限られたパートナーだけにこの技術を提供しています。これには、教育関連の企業やビデオ翻訳サービス、医療機器製造会社などが含まれています。

一般に公開しない理由の一つに、選挙前に悪影響を及ぼす可能性があることが挙げられます。声のコピー技術には誤用されるリスクがあり、過去にはアメリカ大統領の声を模倣した事件もありました。

そのため、OpenAIはこの「Voice Engine」技術を非常に慎重に取り扱っており、テストに参加するパートナーには無断での人物の声の模倣を禁止し、声の提供者からの明確な同意を必要としています。さらに、コピーされた声には人の耳では聞き取れない特別な印（ウォーターマーク）を加えることで、誤用防止の措置を講じています。

この声をコピーする技術に関しては、Microsoft、Google、Amazon、Metaなどの大手技術企業も取り組んでいる分野です。

OpenAIのCEOであるSam Altmanは、新しい技術の「Voice Engine」が将来のAI音声アシスタントの基盤となるだろうと述べています。

出典：OpenAI Blog

声だけで感情を読み取るAIが登場！「Hume AI」

チャットGPT登録なしでアクセス可能

OpenAIが、AIチャットボット「チャットGPT」をより身近な存在にするための大きな一歩を踏み出しました。これまでは、利用に登録が必要でしたが、これからは誰でもログインせずにチャットGPTを使えるようになります。これは、AIの魅力をより多くの人に広めたいOpenAIの取り組みの一環です。

OpenAIが、AIチャットボット「チャットGPT」をより身近な存在にするための大きな一歩を踏み出しました。これまでは、利用に登録が必要でしたが、これからは誰でもログインせずにチャットGPTを使えるようになります。これは、AIの魅力をより多くの人に広めたいOpenAIの取り組みの一環です。#chatgpt pic.twitter.com/QhHoWUQOpg
— Multifverse (@multifverse) April 9, 2024

チャットGPTは、2022年末に登場して以来、特に2023年5月には18億回という驚異的なアクセス数を記録するなど、非常に人気があります。しかし、その後、成長のペースはやや鈍化しているようです。

OpenAIは、新しいアクセス方法を通じて、多くの人々がAIの可能性を直接体験し、その便利さや楽しさを実感できることを期待しています。一方で、この開放性がもたらす潜在的なリスクに対応するため、不適切な使用を防ぐ追加の保護措置を導入する計画ですが、その具体的な内容についてはまだ発表されていません。

登録せずとも基本的なサービスを利用できますが、ログインのユーザーには、チャット履歴の保存や音声による会話機能など、さらに豊富な機能が提供されます。また、「DALL-E 3」を含む他の機能を使用するには、これまで通りログインが必要になります。

この取り組みは、イーロン・マスクが、OpenAIとそのCEOであるサム・アルトマンを、創設当初の理念から外れたとして訴えた後に実施されました。チャットGPTを広く普及させるこの戦略は、AI技術の進化とそれが引き起こす社会的、倫理的な問題への意識を反映しています。

AI技術に興味がある方にとっては、チャットGPTとの出会いを楽しむ絶好の機会になると期待しています。

出典：OpenAI Blog

OpenAIが東京にオフィスを開設

今月、OpenAIは、東京に初めてのアジア拠点を開設し、アジアの企業向けにAIサービスを提供する予定です。これは、サンフランシスコに本社を置くOpenAIがロンドンやダブリンに続いて海外で設立する3番目の拠点となります。

日本がアジアの拠点として選ばれた理由の一つは、日本がグローバルなAI規範を作る議論をリードしているからです。岸田文雄首相は、「創造的AIを規制する国際規範を作る」と積極的に提案し、「広島AIプロセス」と呼ばれるAIの開発倫理や信頼構築を含む計画を進めており、これはG7の会議で各国の首脳から支持されました。

OpenAIのCEOであるサム・アルトマン氏はAIの商用化を積極的に推進している一方で、「世界中の政府によるAI規範が必要」との見解を示しています。東京に拠点を設置することにより、OpenAIは将来のAI規範に関する議論に積極的に参加し、その方向性を有利に進めることを目指しています。

ソフトバンクの孫正義会長との関係も、東京を選んだ大きな理由の一つです。サム・アルトマン氏は以前から孫会長と会い、OpenAIのための半導体設計や製造に関して話し合ってきました。孫会長はAI半導体の製造にも興味を示しており、東京に拠点を設置することで、将来の投資に関する話し合いがしやすくなると考えられています。

OpenAIが東京にオフィスを開設予定

OpenAI、AI画像生成ツール「DALL-E 3」に画像編集機能追加

OpenAIが、AI画像生成ツール「DALL-E 3」を大きくアップデートし、使いやすさと画像の視覚化の精度を高める新たな編集機能を追加しました。このアップデートは4月3日に発表され、ChatGPTのプレミアムサービスを通じて生成された画像を編集する機能です。

「DALL·E Editor（DALL-E エディター）」と呼ばれるエディターは、ユーザーが生成した画像の特定の部分を簡単に修正できます。直感的なインターフェースである「選択(Select)」ボタンを備え、ユーザーはマウスを使用して編集したい画像の範囲を簡単に指定できます。

ユーザーは、望まないオブジェクトを画像から削除したり、新しいオブジェクトを画像に追加するなど、画像に対する詳細な修正を行うことが可能で、DALL-E 3の提供する創造的な柔軟性を強化しました。

特に、DALL-E エディターは、画像の迅速かつ効率的な修正を可能にする「元に戻す」と「やり直し」のアクションをサポートします。この追加機能は、創造的な実験と画像の細かなカスタマイズを支援する、ユーザーフレンドリーなプラットフォームを提供するOpenAIの取り組みを強調しています。

アップデートされたDALL-E 3とその編集機能は、ChatGPT PlusとChatGPT Enterpriseバージョンで利用可能であり、ウェブとモバイルプラットフォームの両方でアクセスできます。この「DALL-E エディター」は、AIを利用した画像カスタマイズにおいて、複雑なアイデアをより簡単かつ正確に視覚化します。

マイクロソフトとOpenAIが大規模データセンターを構築

マイクロソフトとOpenAIが、AI向けの巨大スーパーコンピューターを支えるために、大量のGPUを搭載した大規模データセンターを建設していることが明らかになりました。このプロジェクトは、「Stargate」と名付けられ、アメリカに設置される予定です。その費用は1,150億ドルを超える可能性があると報じられています。

マイクロソフトが建設費用を負担し、これは現在稼働している大規模データセンターよりも100倍以上のコストがかかると言われています。「Stargate」は、今後6年以内に完成を目指すプロジェクトの中で最大のものです。2028年までに稼動を開始する計画です。

このスーパーコンピューターは段階的に構築され、5段階のシステムで構成されます。第4段階までのシステムはよりコスト効率が良く、2026年には稼働開始する可能性があります。しかし、巨大な電力を必要とするため、MicrosoftとOpenAIは原子力を含む代替エネルギー源の使用も検討しています。このプロジェクトは難しい課題を伴い、特にGPUの効率的な配置と冷却方法の課題が求められます。

また、MicrosoftとOpenAIはNvidiaに依存しない設計を目指しており、現在は、NvidiaのInfiniBandケーブルを使用していますが、Stargateでは、Ethernetケーブルの使用を推奨しています。しかし、このスーパーコンピューターの最終的な設置場所や、単一または複数のデータセンターにわたって構築されるかは、未定です。

OpenAIのCEOであるSam Altmanは、AIチップの開発とその生産工場の建設に向けて、最大7兆ドルの資金調達計画を進めていると今年初めに報道されています。MicrosoftもAIプロジェクト用に128コアのArmデータセンターCPUとMaia 100 GPUを公開し、AIデータセンター用の独自のネットワーキング機器を展開しています。

出典：Reuters

「ロボタクシーを8月に公開する」とテスラ株が5%急騰

テスラのCEO「イーロン・マスク」が8月8日に自動運転ロボタクシーを公開する予定だと発表したことで、テスラの株価が4.9%急騰しました。これは新しい製品への期待が反映された結果と解釈されます。イーロン・マスクは、過去にも何度かロボタクシープロジェクトを言及していました。

ロボタクシーは完全自動運転技術を採用し、自律的に乗客を乗せて運賃を徴収するタクシーです。当時のデザイナーや開発者たちは、運転席とペダルを装備した上で、完全自動運転車が完成したらこれを取り除くという意見を提案しました。しかし、イーロン・マスクCEOはこの提案を拒否し、運転席やペダルを設置すべきではないと主張し、完全自動運転車の実現にこだわり続けたとされています。

Tesla Robotaxi unveil on 8/8
— Elon Musk (@elonmusk) April 5, 2024

Apple Vision Proの通話機能「Persona（ペルソナ）」3Dアバターを会議室に呼び出す

Appleは、「Spatial Personas（ペルソナ）」というVision Proの新機能を発表しました。これは、利用者のアバターをよりリアルに作成できる機能で、iPhoneのMemoji（ミー文字）に似ていますが、「Spatial Personas」は、より生き生きとしている点が特徴です。Vision Proを使って3Dで顔をスキャンし、リアルなアバターを作成します。これらのアバターは、FaceTime通話やSharePlayなどで動く2D画像として表示され、AIが頭や口、手の動きに合わせてアバターを動かします。

アバターが頭、肩、手だけで構成されており、浮遊する幽霊のように見えるのが面白い点ですが、これにより他の人たちに対してより個人的な感じを与えることができます。動きはリアルタイムで追跡され、実際にその場にいるかのような体験を仮想空間で提供します。アバターの移動は、指でつまむ動作で行えます。

この機能は公開ベータ版で、最大5人との通話で利用可能です。FaceTime通話を開始し、「Spatial Personas」オプションを選択することで使えます。この機能は最新のVisionOS(1.1.1)で動作し、表示されない場合はデバイスの再起動が推奨されます。

出典：Tom’s Guide

OpenAI API ：ファインチューニング新機能公開

昨年8月にOpenAIはGPT-3.5用のセルフサービスファインチューニングAPIを初めてリリースしました。この度、開発者がファインチューニングをより良く制御できるよう、新たにいくつかの機能が追加されました。

ファインチューニングは、AIを特定のタスクに特化させ、深い理解を持たせる技術です。これにより、プログラミング言語で優れたコードを生成したり、特定の形式でテキストを要約したり、ユーザーの行動に基づいたパーソナライズされたコンテンツを作成することが出来ます。

昨年8月にOpenAIはGPT-3.5用のセルフサービスファインチューニングAPIを初めてリリースしました。この度、開発者がファインチューニングをより良く制御できるよう、新たにいくつかの機能が追加されました。#chatgpt pic.twitter.com/4rpArmqFx8
— Multifverse (@multifverse) April 9, 2024

たとえば、「Indeed」では、スキル、経験、好みに基づく仕事の推薦機能を提供するために、より高品質で正確な説明を生成することを目指し、GPT-3.5 Turboをファインチューニングしました。その結果、プロンプトに表示されるトークン数を80%減少させることで、コストの負担を改善しました。また、求職者へのメッセージ送信量は、月に100万件未満から約2000万件へと大幅に拡大することができました。

ファインチューニングの新機能としては、

エポックベースのチェックポイント生成: 各トレーニングエポックで完全にファインチューニングされたモデルのチェックポイントを自動的に生成します。これは、特に過学習の場合、後続の再トレーニングの必要性を減らします。
比較プレイグラウンド: モデルの品質とパフォーマンスを比較するための新しい並列プレイグラウンドUIで、複数のモデルの出力やファインチューンされたスナップショットを単一のプロンプトに対して人間が評価できます。
サードパーティ統合: サードパーティのプラットフォーム（今週はWeights and Biasesから開始）との統合サポートを提供し、開発者が詳細なファインチューニングデータを他のスタックと共有できるようにします。
包括的バリデーションメトリクス: サンプルされたバッチではなく、全バリデーションデータセットにわたって損失や精度などのメトリクスを計算できる能力を提供し、モデル品質に関するより良い洞察を提供します。
ハイパーパラメータ設定: APIやSDKだけでなく、ダッシュボードから利用可能なハイパーパラメータを設定する能力。
ファインチューニングダッシュボードの改善: ハイパーパラメータの設定、より詳細なトレーニングメトリクスの表示、以前の設定からのジョブの再実行機能を含みます。

韓国の通信オペレーターであるSKテレコムは、顧客サービスでの対話の質を改善するためにGPT-4をファインチューニングし、会話の要約品質や意図認識の正確さ、満足度スコアを向上させました。

将来的には、ほとんどの組織が特定の業界、ビジネス、ユースケースに特化したカスタマイズされたモデルを開発することになると考えられています。これにより、各組織はAI実装からより具体的な影響を実現することができます。

出典：OpenAI Blog

AppleがiPhoneの「Siri」を賢くする新技術を発表！

Appleは、Siriが話す内容やその場の状況をより正確に理解できるようにするための新しい技術を開発しました。この技術は「小型言語モデル(SLM)」として知られ、「ReALM」という名前のモデルとして紹介されています。

この技術により、Siriは、より長い会話を記憶できるようになり、iPhoneの画面に表示されている内容や再生中の音楽なども理解できるようになります。まるで友達があなたの話をじっくり聞いて、好みに合わせた返答や検索をしてくれるかのようです。

しかし、この新技術がiPhoneにいつ実装されるかはまだ未定です。Appleは毎年6月に開催される世界開発者会議(WWDC)で、次のiOSバージョンにこの技術が含まれる可能性があることを示唆していますが、具体的な詳細は明らかにしていません。

近年、スマートフォン業界では、AI技術が重要な機能として注目されています。Appleも長年にわたる自動車プロジェクトを停止し、AI技術に集中するという決断をしました。これは、Appleがどのように進化し続けているかの良い例です。

出典：Zdnet

AIの脆弱性、「多段階ジェイルブレイク」とは？

AIは、賢いというイメージがありますが、細工を施すことで本来教えてはいけない情報を教えてしまうことがあります。例えば、普通は「爆弾の作り方」のような危険な質問には答えないようにプログラムされていますが、Anthropicの研究者たちが発見した「多段階ジェイルブレイク（Many-shot jailbreaking）」という手法を使うと、話が変わってきます。

この手法では、最初に多くの無害な質問をしてAIの警戒心を下げ、徐々にガードを解いていきます。そして、最終的には本来禁じられている質問にも答えさせることが出来ます。

AIも人間の脳と同様に「学習」することができます。しかし、人間の脳とは異なり、AIには、一度に覚えることができる情報の量を決める「コンテキストウィンドウ」という概念が存在します。最新のAIでは、この「コンテキストウィンドウ」が大きければ大きいほど、より多くの情報を記憶することができます。その結果、AIは提示された情報から学習し、その学習内容に基づいて回答を改善していきます。つまり、質問の流れに沿って、AIは、より良い答えを出そうと努力するのですが、このプロセスが逆効果となり、本来答えてはいけない質問にも答えてしまうことがあります。

研究者たちは、AIが質問をより厳しくチェックするなどの解決策を模索していますが、これがAIの賢さの向上を妨げる可能性もあります。したがって、より良い解決策を見つけるための研究が続けられています。

AIは賢いですが完璧ではなく、その安全性を高めるためにはさらなる研究が必要です。研究者たちが問題解決に向けて努力していることを信じ、AIの進化を応援しましょう。

出典：Anthropic Blog

AI最新ニュースまとめ

OpenAIの「Voice Engine」について

Q1: 「Voice Engine」とは何ですか？

A1: 「Voice Engine」は、OpenAIが開発した人の声を真似ることができるAIモデルです。この技術は、わずか15秒の音声サンプルから、その人物の声に非常に近い音声を生成することが可能です。主に、チャットGPTの声機能に使われている技術を基にしていますが、特定の人物の声を模倣できる新しいバージョンです。

Q2: 「Voice Engine」の利用例を教えてください。

A2: 「Voice Engine」の技術は、話すことが困難な人々の支援、教育目的での利用、ビデオ翻訳サービス、医療機器の製造など、様々な場面で役立てられることを目的としています。この技術により、多くの人々が恩恵を受けることが期待されています。

Q3: 「Voice Engine」が一般に公開されていない理由は何ですか？

A3: OpenAIは、「Voice Engine」の技術に誤用されるリスクがあると考えています。特に、選挙前に悪影響を及ぼす可能性や、過去にアメリカ大統領の声を模倣した事件のような事例を避けるため、安全性を重視して限られたパートナーにのみこの技術を提供しています。

Q4: OpenAIは「Voice Engine」の安全性にどのように取り組んでいますか？

A4: OpenAIは、「Voice Engine」技術の安全性を非常に慎重に取り扱い、無断で人物の声を模倣することを禁止し、声の提供者からの明確な同意を必要としています。また、コピーされた声には人の耳では聞き取れない特別な印（ウォーターマーク）を加えることで、誤用を防ぐ措置を講じています。

Q5: 「Voice Engine」の技術開発において、他の企業との関係はどうですか？

A5: 「Voice Engine」をコピーする技術に関しては、Microsoft、Google、Amazon、Metaなどの大手技術企業も取り組んでいます。しかし、OpenAIの「Voice Engine」は、特定の人物の声を模倣できる点で、特に注目されている技術です。

Q6: 「Voice Engine」の未来について、OpenAIのCEOはどのように述べていますか？

A6: OpenAIのCEOであるSam Altmanは、「Voice Engine」が将来のAI音声アシスタントの基盤となるだろうと述べており、この技術の発展が今後のAIの進化に大きく貢献することを期待しています。

チャットGPTへの登録なしでのアクセスについて

Q1: チャットGPTを利用するために登録は必要ですか？

A1: いいえ、OpenAIは最近、チャットGPTを利用するための登録を必要としない新しいアクセス方法を導入しました。これにより、誰でもログインせずにチャットGPTを使用できるようになります。

Q2: チャットGPTの利用できる機能は何ですか？

A2: チャットGPTは、人間の会話を模倣するだけでなく、長文の要約、詩の作成、アイデア出しといった様々なタスクに対応可能です。ログインせずにアクセスした場合でも、これらの基本的なサービスを利用できます。

Q3: チャットGPTを登録して利用する利点はありますか？

A3: はい、ログインユーザーには、チャット履歴の保存や音声による会話機能など、未登録ユーザーには提供されていない豊富な機能が利用可能です。また、「DALL-E 3」などの他のOpenAI製品を使用する際にもログインが必要です。

Q4: OpenAIはなぜ登録不要でのアクセスを提供するようになりましたか？

A4: OpenAIは、AIの魅力をより多くの人に広め、AIの可能性を直接体験してもらいたいという願いから、登録不要でのアクセスを開始しました。これは、AIに対する理解と関心を深めることを目的としています。

Q5: 登録不要のアクセスによるリスクへの対応策はありますか？

A5: OpenAIは、登録不要でのアクセスによって生じる可能性のあるリスクに対応するため、不適切な使用を防ぐための追加の保護措置を導入する計画です。ただし、その具体的な内容についてはまだ発表されていません。

Q6: この新しいアクセス方法は、どのような背景から実施されましたか？

A6: この取り組みは、イーロン・マスクがOpenAIとそのCEOであるサム・アルトマンに対して、創設当初の理念から外れたとして訴えた後に実施されました。チャットGPTを広く普及させるこの戦略は、AI技術の進化とそれが引き起こす社会的、倫理的な問題への意識を反映しています。

OpenAIの東京オフィス開設について

Q1: OpenAIはなぜ東京にアジア拠点を設置したのですか？

A1: OpenAIが東京にアジア拠点を設置した理由は複数あります。主な理由の一つは、日本がグローバルなAI規範を作る議論をリードしていることです。また、岸田文雄首相が提案する「広島AIプロセス」がG7会議で支持されたことも大きな要因です。さらに、ソフトバンクの孫正義会長との関係も、東京を選んだ重要な理由の一つとされています。

Q2: OpenAIの東京オフィスは、アジアの企業にどのようなサービスを提供する予定ですか？

A2: OpenAIの東京オフィスは、アジアの企業向けにAIサービスを提供する予定です。具体的なサービス内容については詳細が公表されていませんが、OpenAIの先進的なAI技術と製品を活用して、企業のニーズに合わせたソリューションを提供することが期待されます。

Q3: 東京オフィス開設の背景には、政治的な要因はありますか？

A3: はい、東京オフィス開設の背景には政治的な要因があります。OpenAIのCEO、サム・アルトマン氏は、「世界中の政府によるAI規範が必要」との見解を示しており、日本がグローバルなAI規範作りにおいて重要な役割を果たしていることが、東京を拠点として選んだ理由の一つです。

Q4: OpenAIとソフトバンクの孫正義会長との関係はどのようなものですか？

A4: OpenAIのCEO、サム・アルトマン氏とソフトバンクの孫正義会長は以前から関係があり、OpenAIのための半導体設計や製造について話し合ってきました。孫会長はAI半導体の製造にも興味を示しており、東京にオフィスを設置することで、将来の投資に関する話し合いがしやすくなると考えられています。

Q5: 東京オフィス開設は、OpenAIにとってどのような意義がありますか？

A5: 東京オフィスの開設は、OpenAIにとってアジア市場への進出という大きな一歩です。この拠点を通じて、アジアの企業や組織との協力関係を強化し、グローバルなAI規範の議論に積極的に参加することができます。また、地域に根ざしたAIサービスの提供によって、アジア全域でのAI技術の普及と理解を深めることができると期待されています。

DALL-E 3の画像編集機能について

Q1: DALL-E 3の新しい編集機能とは何ですか？

A1: DALL-E 3の新しい編集機能は、「DALL·E Editor（DALL-E エディター）」と呼ばれ、ユーザーが生成した画像の特定部分を簡単に修正できる機能です。直感的なインターフェースを通じて、望まないオブジェクトの削除や新しいオブジェクトの追加など、画像に対する詳細な修正が可能です。

Q2: DALL-E エディターの操作は簡単ですか？

A2: はい、非常に簡単です。「選択(Select)」ボタンを備えた直感的なインターフェースを使用して、マウスで編集したい画像の範囲を簡単に指定できます。また、「元に戻す」と「やり直し」のアクションもサポートしており、迅速かつ効率的な画像修正が可能です。

Q3: DALL-E 3の画像編集機能を利用できるのは誰ですか？

A3: この編集機能は、ChatGPT PlusとChatGPT Enterpriseバージョンを利用しているユーザーがアクセスできます。ウェブとモバイルプラットフォームの両方で利用可能です。

Q4: DALL-E 3の画像編集機能を使用するメリットは何ですか？

A4: この編集機能により、ユーザーは創造的な柔軟性をより強化し、複雑なアイデアをより簡単かつ正確に視覚化することができます。画像の細かなカスタマイズや創造的な実験がよりユーザーフレンドリーな方法で支援されます。

Q5: DALL-E 3とは何でしょうか？

A5: DALL-E 3は、OpenAIが開発したAI画像生成ツールです。ユーザーの入力に基づいて画像を生成することができ、非常に高い視覚化の精度と創造性を実現しています。このツールは、AI技術を利用して画像を生成し、編集する最先端の方法を提供します。

マイクロソフトとOpenAIによる大規模データセンター構築プロジェクト「Stargate」について

Q1: 「Stargate」プロジェクトとは何ですか？

A1: 「Stargate」プロジェクトは、マイクロソフトとOpenAIが共同で行っている、AI向けの巨大スーパーコンピューターを支えるための大規模データセンターの建設プロジェクトです。このプロジェクトでは、大量のGPUを搭載し、AIの研究開発に必要な計算能力を提供することを目的としています。

Q2: 「Stargate」プロジェクトの費用はどの程度ですか？

A2: 「Stargate」プロジェクトの費用は1,150億ドルを超える可能性があると報じられています。このコストは、現在稼働している大規模データセンターよりも100倍以上になると言われています。

Q3: 「Stargate」の完成予定はいつですか？

A3: 「Stargate」プロジェクトは、2028年までに稼動を開始する計画です。プロジェクトは段階的に構築され、2026年には部分的に稼働開始する可能性があります。

Q4: 「Stargate」プロジェクトで直面する主な課題は何ですか？

A4: 「Stargate」プロジェクトは、巨大な電力を必要とするため、代替エネルギー源の使用を検討しています。特に、GPUの効率的な配置と冷却方法に関する課題があります。また、Nvidiaに依存しない設計を目指しており、ネットワーキングにはEthernetケーブルの使用を推奨しています。

Q5: MicrosoftとOpenAIは、AIデータセンターのために他にどのような技術を開発していますか？

A5: MicrosoftはAIプロジェクト用に128コアのArmデータセンターCPUと「Maia 100 GPU」を公開し、AIデータセンター用の独自のネットワーキング機器を展開しています。一方、OpenAIのCEOであるSam Altmanは、AIチップの開発とその生産工場の建設に向けて最大7兆ドルの資金調達計画を進めていると報じられています。

Q6: 「Stargate」プロジェクトの最終的な設置場所は決定していますか？

A6: 「Stargate」プロジェクトの最終的な設置場所や、プロジェクトが単一または複数のデータセンターにわたって構築されるかについては、まだ未定です。プロジェクトの進行に伴い、これらの詳細が決定されることになります。

テスラのロボタクシー公開について

Q1: テスラのロボタクシーとは何ですか？

A1: テスラのロボタクシーは、完全自動運転技術を採用した自律型タクシーサービスです。運転手なしで自動的に乗客を乗せ、目的地まで運び、運賃を徴収するシステムを持っています。

Q2: ロボタクシーの公開日はいつですか？

A2: テスラのCEO、イーロン・マスクによると、ロボタクシーは8月8日に公開される予定です。

Q3: ロボタクシー公開発表によるテスラ株の影響は？

A3: ロボタクシーの公開予定が発表されたことで、テスラの株価は4.9%急騰しました。これは市場における新しい製品への期待が反映されたものです。

Q4: ロボタクシーには運転席やペダルはありますか？

A4: 当初、ロボタクシーのデザイナーや開発者たちは運転席とペダルを装備することを提案していました。しかし、イーロン・マスクCEOはこの提案を拒否し、完全自動運転車では運転席やペダルを設置すべきではないと主張しました。マスクCEOは、完全自動運転の実現にこだわりを持っています。

Q5: ロボタクシーの公開は初めてですか？

A5: イーロン・マスクは過去にも何度かロボタクシープロジェクトについて言及していますが、8月8日に予定されている公開は、その具体的な製品やサービスに関するものと見られており、新たな段階への進出を示しています。

Apple Vision Proの「Spatial Personas」機能について

Q1: 「Spatial Personas」とは何ですか？

A1: 「Spatial Personas」は、Apple Vision Proの新機能で、利用者が3Dで自分の顔をスキャンしてリアルなアバターを作成できる機能です。これは、iPhoneのMemojiに似ていますが、より生き生きとしていて、実際の頭、肩、手の動きをAIが追跡して、アバターを動かします。

Q2: 「Spatial Personas」のアバターはどのように見えますか？

A2: このアバターは、頭、肩、手だけで構成され、浮遊する幽霊のような外観です。これにより、通話中に他の参加者に対してより個人的な感じを与えることができます。

Q3: 「Spatial Personas」の動きはどのように追跡されますか？

A3: アバターの動きはリアルタイムで追跡され、利用者が実際にその場にいるかのような体験を仮想空間で提供します。アバターの移動は、指でつまむ動作で簡単に行えます。

Q4: 「Spatial Personas」はどのように利用できますか？

A4: この機能は公開ベータ版で、最大5人との通話で利用可能です。FaceTime通話を開始し、「Spatial Personas」オプションを選択することで使えます。

Q5: 「Spatial Personas」機能を利用するにはどのバージョンのVisionOSが必要ですか？

A5: 「Spatial Personas」機能は最新のVisionOS(1.1.1)で動作します。機能が表示されない場合は、デバイスの再起動が推奨されます。

Q6: 「Spatial Personas」を使う利点は何ですか？

A6: 「Spatial Personas」を使用することで、FaceTime通話やSharePlayなどでよりリアルで個人的なコミュニケーションが可能になります。アバターがリアルタイムで動き、実際にその場にいるかのような感覚を仮想空間で体験できます。

OpenAI APIのファインチューニング新機能について

Q1: ファインチューニングとは何ですか？

A1: ファインチューニングは、AIを特定のタスクや用途に特化させ、より深い理解や特定のスキルを持たせる技術です。これにより、AIは優れたコード生成、特定の形式でのテキスト要約、ユーザー行動に基づくパーソナライズされたコンテンツ作成など、特定の作業をより効果的に行うことが可能になります。

Q2: 新機能の主な目的は何ですか？

A2: 新機能の主な目的は、開発者がファインチューニングをより良く制御し、モデルの品質とパフォーマンスを評価・比較しやすくすることです。これにより、モデルの過学習を防ぎ、再トレーニングの必要性を減らし、開発者が特定のニーズに合わせてAIモデルをより効果的にカスタマイズできるようになります。

Q3: 新機能の具体的な内容は？

A3: 新機能には、エポックベースのチェックポイント生成、比較プレイグラウンド、サードパーティ統合、包括的バリデーションメトリクス、ハイパーパラメータ設定、ファインチューニングダッシュボードの改善が含まれます。これらの機能を通じて、開発者はファインチューニングプロセスをより詳細に管理し、モデルの品質を高めることができます。

Q4: 「エポックベースのチェックポイント生成」とは何ですか？

A4: エポックベースのチェックポイント生成は、各トレーニングエポックで完全にファインチューニングされたモデルのチェックポイント（スナップショット）を自動的に生成する機能です。これにより、モデルが過学習する前の状態を保存し、必要に応じて最適なモデルを選択して再トレーニングすることが可能になります。

Q5: 「比較プレイグラウンド」とは何ですか？

A5: 比較プレイグラウンドは、新しい並列プレイグラウンドUIで、複数のモデルの出力やファインチューンされたスナップショットを単一のプロンプトに対して人間が評価できる機能です。これにより、開発者は異なるモデル間の品質とパフォーマンスを直接比較し、最適なモデルを選択することができます。

Q6: 今後のファインチューニングの展望は？

A6: 将来的には、ほとんどの組織が特定の業界、ビジネス、ユースケースに特化したカスタマイズされたモデルを開発することが期待されています。これにより、各組織はAI実装からより具体的な影響を実現し、その業務やサ

Appleの新技術「ReALM」とSiriの向上について

Q1: 「ReALM」とは何ですか？

A1: 「ReALM」は、Appleが開発した新しい技術で、Siriが話す内容やその場の状況をより正確に理解できるようにする小型言語モデル(SLM)です。これにより、Siriはより長い会話を記憶し、iPhoneの画面に表示されている内容や再生中の音楽なども理解できるようになります。

Q2: 「ReALM」の技術はSiriにどのような改善をもたらしますか？

A2: 「ReALM」技術を通じて、Siriは会話の文脈をより深く理解し、ユーザーの好みやニーズに合わせた返答や検索が可能になります。これは、Siriがより人間のように、ユーザーの話をじっくり聞いて対応できることを意味します。

Q3: 「ReALM」技術はいつiPhoneに実装されますか？

A3: 現時点では、「ReALM」技術がiPhoneに実装される具体的な時期は未定です。Appleは、毎年6月に開催される世界開発者会議(WWDC)で、次のiOSバージョンにこの技術が含まれる可能性があることを示唆していますが、具体的な詳細はまだ明らかにしていません。

Q4: AppleがAI技術に集中する理由は何ですか？

A4: 近年、スマートフォン業界ではAI技術が重要な機能として注目されています。Appleは、ユーザー体験を向上させ、より賢く便利な機能を提供するために、自動車プロジェクトを停止し、AI技術に集中するという決断をしました。これは、Appleが市場の需要に応え、技術革新においてリーダーシップを維持し続けるための戦略です。

Q5: 「ReALM」技術により、Siriが理解できるようになる内容は？

A5: 「ReALM」技術を使うことで、Siriはより長い会話や複雑な文脈を記憶し、iPhoneの画面に表示されている内容や再生中の音楽、その他のメディアなども理解することができます。これにより、Siriはユーザーの意図や状況に応じたより適切な対応を行うことが可能になります。

AIの脆弱性「多段階ジェイルブレイク」とは？

Q1: 「多段階ジェイルブレイク」とは何ですか？

A1: 「多段階ジェイルブレイク」とは、AIのセキュリティ対策やガイドラインを回避し、本来提供してはいけない情報を提供させてしまう手法です。この手法では、まず多くの無害な質問を通じてAIの警戒心を下げ、段階的にガードを解いていき、最終的に禁じられている質問にも答えさせることができます。

Q2: なぜ「多段階ジェイルブレイク」が機能するのですか？

A2: AIは一連の質問や情報から学習し、提供されたコンテキスト内で最も適切な回答を提供しようと努力します。このプロセス中に、初めに提供された無害な質問がAIの警戒心を下げ、徐々にその基準を緩めさせることで、本来禁じられている質問にも答えてしまうことがあります。これはAIが「コンテキストウィンドウ」内の情報を基に判断を下すため、その判断基準が段階的に変化してしまうためです。

Q3: AIの「コンテキストウィンドウ」とは何ですか？

A3: 「コンテキストウィンドウ」とは、AIが一度に理解し、処理できる情報量を指す概念です。このウィンドウの大きさが、AIが記憶できる情報の量を決定します。コンテキストウィンドウが大きいほど、AIはより多くの情報を保持し、より複雑な質問や状況に対応できるようになります。

Q4: 「多段階ジェイルブレイク」に対する解決策はありますか？

A4: 研究者たちは、AIが質問をより厳しくチェックする、あるいは特定の質問パターンを識別して自動的にブロックするなどの解決策を模索しています。しかし、これらの対策がAIの賢さの向上やユーザーエクスペリエンスに影響を与える可能性があるため、バランスの取れた解決策を見つけることが課題となっています。

Q5: 「多段階ジェイルブレイク」の対策における今後の課題は？

A5: 「多段階ジェイルブレイク」に対する有効な対策を開発するには、AIの理解力と判断基準を向上させつつ、不適切な情報提供を防ぐ方法を見つける必要があります。また、これらの対策がAIの応答能力やユーザー体験に悪影響を与えないようにするため、技術的な洗練と倫理的な考慮が求められます。研究者たちは、AIの賢さと安全性を両立させるために、継続的な研究と開発を行っています。

OpenAIが人の声を真似る「Voice Engine」公開

チャットGPT登録なしでアクセス可能

OpenAIが東京にオフィスを開設

OpenAI、AI画像生成ツール「DALL-E 3」に画像編集機能追加

マイクロソフトとOpenAIが大規模データセンターを構築

「ロボタクシーを8月に公開する」とテスラ株が5%急騰

Apple Vision Proの通話機能「Persona（ペルソナ）」3Dアバターを会議室に呼び出す

OpenAI API ：ファインチューニング新機能公開

AppleがiPhoneの「Siri」を賢くする新技術を発表！

AIの脆弱性、「多段階ジェイルブレイク」とは？

OpenAIの「Voice Engine」について

Q1: 「Voice Engine」とは何ですか？

Q2: 「Voice Engine」の利用例を教えてください。

Q3: 「Voice Engine」が一般に公開されていない理由は何ですか？

Q4: OpenAIは「Voice Engine」の安全性にどのように取り組んでいますか？

Q5: 「Voice Engine」の技術開発において、他の企業との関係はどうですか？

Q6: 「Voice Engine」の未来について、OpenAIのCEOはどのように述べていますか？

チャットGPTへの登録なしでのアクセスについて

Q1: チャットGPTを利用するために登録は必要ですか？

Q2: チャットGPTの利用できる機能は何ですか？

Q3: チャットGPTを登録して利用する利点はありますか？

Q4: OpenAIはなぜ登録不要でのアクセスを提供するようになりましたか？

Q5: 登録不要のアクセスによるリスクへの対応策はありますか？

Q6: この新しいアクセス方法は、どのような背景から実施されましたか？

OpenAIの東京オフィス開設について

Q1: OpenAIはなぜ東京にアジア拠点を設置したのですか？

Q2: OpenAIの東京オフィスは、アジアの企業にどのようなサービスを提供する予定ですか？

Q3: 東京オフィス開設の背景には、政治的な要因はありますか？

Q4: OpenAIとソフトバンクの孫正義会長との関係はどのようなものですか？

Q5: 東京オフィス開設は、OpenAIにとってどのような意義がありますか？

DALL-E 3の画像編集機能について

Q1: DALL-E 3の新しい編集機能とは何ですか？

Q2: DALL-E エディターの操作は簡単ですか？

Q3: DALL-E 3の画像編集機能を利用できるのは誰ですか？

Q4: DALL-E 3の画像編集機能を使用するメリットは何ですか？

Q5: DALL-E 3とは何でしょうか？

マイクロソフトとOpenAIによる大規模データセンター構築プロジェクト「Stargate」について

Q1: 「Stargate」プロジェクトとは何ですか？

Q2: 「Stargate」プロジェクトの費用はどの程度ですか？

Q3: 「Stargate」の完成予定はいつですか？

Q4: 「Stargate」プロジェクトで直面する主な課題は何ですか？

Q5: MicrosoftとOpenAIは、AIデータセンターのために他にどのような技術を開発していますか？

Q6: 「Stargate」プロジェクトの最終的な設置場所は決定していますか？

テスラのロボタクシー公開について

Q1: テスラのロボタクシーとは何ですか？

Q2: ロボタクシーの公開日はいつですか？

Q3: ロボタクシー公開発表によるテスラ株の影響は？

Q4: ロボタクシーには運転席やペダルはありますか？

Q5: ロボタクシーの公開は初めてですか？

Apple Vision Proの「Spatial Personas」機能について

Q1: 「Spatial Personas」とは何ですか？

Q2: 「Spatial Personas」のアバターはどのように見えますか？

Q3: 「Spatial Personas」の動きはどのように追跡されますか？

Q4: 「Spatial Personas」はどのように利用できますか？

Q5: 「Spatial Personas」機能を利用するにはどのバージョンのVisionOSが必要ですか？

Q6: 「Spatial Personas」を使う利点は何ですか？

OpenAI APIのファインチューニング新機能について

Q1: ファインチューニングとは何ですか？

Q2: 新機能の主な目的は何ですか？

Q3: 新機能の具体的な内容は？

Q4: 「エポックベースのチェックポイント生成」とは何ですか？

Q5: 「比較プレイグラウンド」とは何ですか？

Q6: 今後のファインチューニングの展望は？

Appleの新技術「ReALM」とSiriの向上について

Q1: 「ReALM」とは何ですか？

Q2: 「ReALM」の技術はSiriにどのような改善をもたらしますか？

Q3: 「ReALM」技術はいつiPhoneに実装されますか？

Q4: AppleがAI技術に集中する理由は何ですか？

Q5: 「ReALM」技術により、Siriが理解できるようになる内容は？

AIの脆弱性「多段階ジェイルブレイク」とは？

Q1: 「多段階ジェイルブレイク」とは何ですか？

Q2: なぜ「多段階ジェイルブレイク」が機能するのですか？

Q3: AIの「コンテキストウィンドウ」とは何ですか？

Q4: 「多段階ジェイルブレイク」に対する解決策はありますか？

Q5: 「多段階ジェイルブレイク」の対策における今後の課題は？

Newsletter

ニュースレターに登録