GPT-4oで実写・ジブリ風などの高品質な画像生成が可能に、11xの内部告発、Microsoft 365 Copilotの新エージェント機能 etc.

Playback speed

Share post at current time

Share from 0:00

0:00

Transcript

GPT-4oで実写・ジブリ風などの高品質な画像生成が可能に、11xの内部告発、Microsoft 365 Copilotの新エージェント機能 etc.

Weekly AI News 2025/03 #4

Lawrence

Mar 29, 2025

Transcript

Transcripts

(00:01:56) GPT-4oの画像生成アップデート概要

従来の拡散モデル（例: DALL·E）とは異なる「自己回帰型（生成を行う際に、1ステップ（トークン）ずつ順番に出力を予測していく手法）」モデルに変更
写実的な写真風画像や正確な文字描画など、従来を大幅に上回る精度向上が確認されている点を解説

(00:02:17) 新しい機能やユースケースの具体例

ホワイトボードの文字や複雑なオブジェクト配置など、正確に再現する例を紹介
簡単な指示で複数バージョンへの変換や修正が可能
インフォグラフィックやキャラクター生成、背景透過など実際の使用例を挙げる

(00:14:09) 実際にGPT-4oで試してみた例

「縄文人がMacBookを使っている写真」「資本主義の終焉セール」など、ユニークなシチュエーションを生成
ジブリ風のポッドキャスト配信シーンなど、実写系〜イラスト系までの出力例を紹介

(00:18:52) GPT-4のその他細かなアップデート

指示への応答精度が上がっている／絵文字や冗長な出力が減ってきたなど小規模の変更点

(00:20:03) OpenAIのエージェントSDKで「MCP」の採用

Anthropic提唱のモデル文脈プロトコル（MCP）を業界標準化へ
ニュースレターで詳細を解説予定

(00:21:04) Google Gemini 2.5のアップデート

優れた論理推論能力・大規模コンテキストウィンドウが特徴
GPT-4oなどとの比較に言及しつつ、強みを簡単にレビュー

(00:23:19) AIスタートアップ「11x」の内部告発

顧客ロゴを無断使用、契約状況の誇張などが内部告発された事例
AIブームの裏でガバナンスやコンプライアンスに問題が生じやすい点を指摘

(00:25:38) Microsoft 365 Copilot新機能

「Researcher」「Analyst」の2つのエージェント機能を追加
社内データやPythonの実行などを統合し、高度なリサーチや解析を自動化
今後プレビュー提供予定

Takeaways

1. OpenAI GPT-4oによる画像生成精度の飛躍的向上

概要
OpenAIはGPT-4oモデルを用いた新しい画像生成機能「Images in ChatGPT」を公開。以下のような大きな進歩が報じられています。

テキストの正確な描画、複数のオブジェクトを同時に正しく描写する「バインディング」能力が大幅強化。
自己回帰型の生成手法を採用し、文字崩れが少なく複雑な構図でも属性が混同しにくい精度を実現。

So What:

実用性向上: 従来のDiffusionモデルの弱点であった文字の崩れや要素の混同が克服され、広告・デザイン・資料作成など幅広い領域で実用に耐える品質に。
マルチモーダル統合: テキスト＋画像の両機能をChatGPTでシームレスに扱えるため、クリエイティブ作業からビジネス文書まで効率が一段と向上。
モデル設計への波及: 自己回帰型による精度向上は、他社・他の画像生成モデルにも影響を与える可能性。言語モデルの世界知識＋逐次生成が新たなベンチマークに。

参考リンク:

Introducing 4o Image Generation – OpenAI (2025年3月25日)

2. Google Gemini 2.5アップデート：画像認識と推論能力の強化

概要
Google DeepMindは「Gemini 2.5」をリリースし、前バージョン（2.0）の性能を大幅にアップグレード。

マルチモーダル対応（テキスト・音声・画像・動画・コード）
コンテキストウィンドウを1百万トークンに拡大
論理的推論性能を高め、多数のベンチマークで他モデルを凌駕
画像認識精度が飛躍的に向上（複雑な対象検出でも高精度を記録）

So What:

競争激化: OpenAIやAnthropicとの性能競争がさらにヒートアップ。Googleが短期サイクルでアップデートを重ねることでリーダーシップ争いが加速。
「考えるAI」の実現: チェイン・オブ・ソート内蔵のシンキングモデルを採用し、複雑なコード生成や問題解決の精度が向上。
マルチモーダル活用拡大: ビジネス現場でデータ分析・クリエイティブ制作が一括でAI支援される環境が整いつつあり、視覚情報を含むタスク（監視カメラ解析など）でも実用化が進む見込み。

参考リンク:

Gemini 2.5: Our most intelligent AI model – Google DeepMindブログ (2025年3月25日)

3. OpenAIがエージェントSDKでMCP採用、業界標準化の兆し

概要
OpenAIはエージェント開発者向けのSDKに**モデル文脈プロトコル（MCP）**をサポートすると発表。

MCPはAnthropicが提唱したオープン標準で、AIモデルが外部データやツールにアクセスする際の共通インターフェース
「AI版USB-C」と呼ばれ、チャットボットやエージェントなどアプリケーションからLLMにコンテキストを与える方法を標準化
OpenAIが競合Anthropic発の規格を採用することで、エコシステム全体の相互運用性が高まる可能性が急上昇

So What:

相互運用性向上: 一度統合すれば異なるAIプラットフォームでも同じ仕組みが使えるようになり、開発者の負担とコストを大幅に削減。
デファクト化の可能性: OpenAI、Anthropic、Replit、Sourcegraphなど主要プレイヤーが賛同することで、MCPが業界標準になる見通し。
ユーザー価値の向上: 企業が自社のデータやツールをAIに接続しやすくなり、より文脈に即した回答や高度なエージェント実行が可能に。

参考リンク:

Model Context Protocol (MCP) – OpenAI Agents SDK ドキュメント

4. a16z・Benchmark支援のAIスタートアップ「11x」の内部告発

概要
AI営業支援スタートアップ11x（イレブンエックス）が、実際に契約していない企業を顧客リストに掲載していたと内部告発で判明。

ZoomInfoやAirtableなど有名企業のロゴを自社サイトで無断使用
これら企業は「試験利用はしたが正式契約はしていない」と主張
ARR（年次経常収益）の算出についても、不正な操作疑惑（短期契約をあたかも長期契約扱いなど）

So What:

生成AIブームの影のガバナンス問題: トップVC支援を受けた企業でも実績粉飾が起こり得る現実。投資過熱下でのリスク管理と信頼性確保の重要性が再認識される。
顧客側の慎重姿勢強化: 勝手に企業名が使われる事態により、企業ユーザーはベンダーの言い分をさらに精査するようになる。導入前のデューデリジェンスが厳格化する見通し。
投資家への影響: 著名VCの評判リスクとしても注目され、指標の鵜呑みを避けるためのモニタリング強化が今後進むと予想。

参考リンク:

a16zとBenchmark出資の11x、存在しない「顧客」で実績誇張か – TechCrunch (2025年3月24日)

5. Microsoft 365 Copilotに高度なエージェント機能「Researcher」「Analyst」追加

概要
MicrosoftはMicrosoft 365 Copilotに下記2つの新エージェントを発表。4月から一部ユーザー向けにプレビュー提供を開始。

Researcher：社内外の情報を横断的にリサーチし、競合分析や市場調査レポート作成を支援。
Analyst：OpenAIの推論モデル＋Python実行能力を備え、複雑なデータ解析や予測を自動化。チェイン・オブ・ソートを活用し高精度の結果を生成。

So What:

オフィス業務へのAI深化: 大規模モデルが組み込まれた「知的労働の自動化」が広がり、レポート作成やデータサイエンス作業を大幅効率化。
専用モデル＆マイクロソフト統合の強み: Microsoftのエコシステム（Teams, Outlook, SharePointなど）＋OpenAIモデルにより、競合との差別化を図る。
企業データ活用の加速と課題: 社内機密データをAIが処理するため、権限管理やセキュリティが引き続き重要。競合他社も追随し、エージェント開発が一層活性化する見込み。

参考リンク: