OpenAIのResponses API（Agent SDK）、GeminiのYouTube対応など

Playback speed

Share post at current time

Share from 0:00

0:00

Transcript

OpenAIのResponses API（Agent SDK）、GeminiのYouTube対応など

Weekly AI News 2025/03 #2

Lawrence

Mar 15, 2025

今週の独自に注目した厳選の生成AI関連のニュースをピックアップして解説をお送りします。

前回はニュースの数が多すぎました。なので、減らしました。一つひとつのニュースをできるだけ深堀りしています。

YouTube、Spotify、Appleで配信しております。ぜひチャンネル登録をよろしくお願いします。

なお、ビデオポッドキャストを開始した背景についてテキストで書きました。長文ですので、投稿にまとめています。以下の投稿です。よろしくお願いします。

本日のトピック

OpenAI: エージェント開発向け新ツール（Responses APIなど）
OpenAI: 中国製モデル「DeepSeek」への規制提案
Google：Geminiの最新アップデート（YouTube動画リンク対応、画像認識の推論による別アングル生成など）
Google: Gamma3
Google DeepMind：ロボット制御向け「Gemini Robotics」を発表
Sakana AI：AI生成の学術論文が査読通過
Same.dev：ワンクリックでWebサイト複製するAIツール

本記事は、生成AIによって作成されています。情報ソースは可能な限り公式情報をもとにしていますが、重要な情報は確認するようにしてください。

1. OpenAIがエージェント開発向け新ツールを発表

OpenAIは3月13日、開発者が高度なAIエージェントを容易に構築できるツール群を発表した。中核となる「Responses API」は、これまで別々に扱われていたチャット補完APIと外部ツール連携機能を一体化し、エージェントがウェブ検索・ファイル探索・PC操作などを直接呼び出せるようにするもの。併せて複数エージェントを一括管理するAgents SDKや、プロンプトを追跡・評価できる観察ツールも追加された。

So what

新ツールにより、エージェントをゼロから作る際に必要だった煩雑な設計やコーディング負担が大幅に軽減される。
モデルが外部ツールを自律的に使用することで、一連の複雑タスクを一括で任せられるため、サポートや業務オートメーションといった実用性が飛躍的に向上。
開発者にとっては大規模モデルの活用門戸がさらに広がる。

参考記事

New tools for building agents

2. OpenAIがDeepSeekに関する規制を提案

OpenAIは米政府への提案書で、中国のAI企業「DeepSeek」が国家管理下で運営されていると警戒を表明し、同モデルの利用を一部規制するよう求めた。具体的には、DeepSeekのモデルを政府や軍事など重要インフラ分野で使用することを禁止する措置を提案している。背景には中国当局がユーザーデータを収集・制御する可能性や、知財保護への懸念があると指摘する。

So what

AI技術が地政学や国家安全保障の問題と直結する時代になっており、米中間の対立が規制の形で表面化している。
OpenAIの提案は、ライバル企業を排除するための動きとも批判される一方、安全保障上のリスクが本格的に議論されるきっかけにもなりうる。今後のAI開発環境や国際競争にも影響が及ぶ可能性が高い。

参考記事

OpenAI’s proposals for the U.S. AI Action Plan

3. Google：Geminiの最新アップデート（YouTube動画リンク対応、画像認識の推論による別アングル生成など）

Googleは3月13日、同社のAIアシスタント「Gemini」アプリを大規模アップデートした。主な新機能は、YouTube動画リンクを入力するだけで内容を自動要約・分析する機能や、最大100万トークンの長文コンテキスト対応、ウェブ情報の高速リサーチ支援など。さらに個人向けに検索履歴を反映した最適化や、Googleマップと連携する高度なナビゲーション提案なども実験的に導入された。

So what

テキストに限らず、動画や地図などマルチメディア情報を統合的に扱えるようになった点で、AIアシスタントとしての汎用性が一段と向上する。
ユーザーは大規模な文書や複雑な処理をAIに任せることが容易となり、個人レベルの生産性向上からビジネスでの資料分析まで多様な場面で役立つ。Google独自のエコシステムとの結合は、他社製AIとの差別化にもつながる。

参考記事

New Gemini app features, available to try at no cost

4. Google：Gamma3

Googleは3月12日、軽量かつ高速なAIモデル群「Gamma3」を発表。従来のGammaシリーズを大幅にアップデートし、単一GPU環境でも大規模モデルに近い性能を実現することをアピールしている。マルチモーダル推論や長文コンテキストへの対応を強化しつつ、オープンソースとして公開することで、研究コミュニティや企業が自由に改良・利用できる点も特徴とされる。

So what

オープンな形で提供される高性能モデルは、スタートアップや個人開発者にとって革新的なAI活用機会を生む。
大規模計算資源がなくても先端モデルの恩恵を享受できるため、地域や組織規模にとらわれないAIイノベーションが加速する可能性がある。一方で、クローズドモデルとの競争や著作権・ライセンス管理などの課題も浮上する。

参考記事

Introducing Gemma 3: The most capable model you can run on a single GPU or TPU

5. Google DeepMind：ロボット制御向け「Gemini Robotics」を発表

Google DeepMindは3月13日、物理世界での動作を念頭に置いたAIモデル「Gemini Robotics」を公開した。視覚・言語・行動を統合したアーキテクチャにより、実際のロボットアームや自律移動ロボットを直接制御できる。派生モデルとして環境認識を強化した「Gemini Robotics-ER」も同時発表しており、ロボットが自律的に状況を把握して動作を最適化する能力を高める狙いがある。

So what

ロボットの動作制御に大規模言語モデルを適用することで、環境認識や計画立案をエンドツーエンドで行えるようになる。サービスロボットや倉庫・工場の自動化において、汎用的な作業対応が期待され、開発コストの削減と導入スピード向上につながる可能性がある。仮想空間中心だったAIが現実世界へ進出する流れが加速する一例となる。

参考記事

Google DeepMind – Gemini Robotics announcement

6. Sakana AI：AI生成の学術論文が査読通過

日本のスタートアップSakanaは3月12日、独自開発のAIシステムが学術論文を完全自動生成し、国際会議ICLR 2025のワークショップにて査読を通過したことを発表した。仮説立案からデータ分析、論文執筆までAIに任せる形で行われ、一部論文はダブルブラインド査読の審査をクリアしたという。

So what

AIが学術研究の一連の工程を完結させ、査読に耐える水準を示した点は、研究開発の効率化や新たな発見プロセスをもたらす可能性がある。一方で、論文の信頼性をどう担保するか、著者資格や倫理指針など新たな課題にも直面する。学術コミュニティ全体でAI活用のルールづくりが急務となるだろう。

参考記事

Sakana公式ブログ – AI Scientist-v2の論文査読通過について

7. Same.dev：ワンクリックでWebサイト複製するAIツール

Same.devは、URLを入力するだけで任意のWebサイトをほぼそのままコピーできるAIサービスを3月に公開した。独自のコード生成技術により、デザインやレイアウトを自動解析し、HTML/CSS・画像素材までまとめて出力。プロトタイプ作成や競合分析に役立つ一方、著作権や悪用リスクなど懸念も指摘されている。

So what

従来の手作業をAIが短時間で代行するため、Web制作やUIデザインのプロセスが大きく効率化される。しかし他者サイトの無断模倣や、フィッシング詐欺への悪用など問題点も浮上するため、技術的イノベーションとルール整備の両立が求められる。ソフトウェア開発の一部工程が急速に自動化される流れの象徴ともいえる。

参考記事

Same.dev – Official