新たに参加した読者、いつも購読いただいている読者の皆様、いつもありがとうございます。
このニュースレターでは、最新のテクノロジーの最前線のニュースを直感的に分かりやすく解説することや、成功を収めている個人やスタートアップの戦略、背景にあるストーリーを深堀りしたりしています。
Deep Seek R1をリサーチサイトに統合してみた
本業のリサーチ業務を少しでも効率化したい、ということでとりあえず動くものを開発しようと思い立ち、リサーチサイトを作ってみました。開発にはCursorを使用しています。
gpt-4o-miniに比べて、コストは安く、パフォーマンスは向上したように感じます。生成する過程の思考プロセスをみるのも結構おもしろいです。
ニュースソースなども公開していますので、よろしければフィードバックいただけたら嬉しいです。🙏 Githubはこちら。
Butterfly 🦋📩 未読メールのストレス、ニュースレターの消化不良から読者を解放するマイクロSaaS
新しくプロダクト(マイクロSaaS)を開発するために、ChatGPTなどを使って、仕事の合間にコツコツと開発を進めています。
GenAI in this week
OpenAIがブラウザ操作を行えるエージェント機能、Operator機能を提供開始しました。
現在は米国のChatGPT Proユーザー向けにリリースされたリサーチプレビュー版であり、反復的なブラウザ作業を自動化して、時間を節約し、ユーザーの日常業務を支援することが想定されています。
以下の投稿では、Operator機能で、クラウドストレージサービスのBoxを利用する様子が公開されてます。
今のところ想定されているユースケース
フォームの入力
商品の購入
旅行の予約
通常の人間が使用するブラウザインターフェース利用して、GPT-4oを搭載したComputer-Using Agent (CUA)により、複雑なGUIの理解と操作が可能となっているそうです。
操作中のエラーや障害を検知した場合、自己修正を試み、必要に応じてユーザーにタスクの引き継ぎ(Takeover)を依頼するようになっており、完全に「丸投げ」はできないみたいです。
AIエージェントについて解説した記事でも述べましたが、これからはAIがSaaSを利用できる時代になった時に、どのようにソフトウェアツールを作るべきなのか、誰のために作っているのかをより考えないと行けない気がしています。
データのプライバシーや安全性については、
ワンクリックで過去のブラウジングデータや会話履歴を削除可能
設定で「モデル改善をオフ」にすると、Operatorでのデータも学習には使用されないできる
データ管理方針を明確化し、ユーザーが自身の情報を完全にコントロール可能
とのことです。
しかしながら、Googleログインなどの認証にはユーザーがサポートする必要があったり、決済情報(クレジットカード番号など)を入力するのも自動ではできません。ユーザーの操作や確認が必要です。
理論上、ブラウザ拡張も操作できそうですが、今後、プライバシーや相当な暗号化の仕組み、もしくはオフラインの実行環境で論理的に断絶された領域を持つなどの機能が実装されなければ、クリプトを扱っているPCでの利用は絶対に避けたほうが良いと思います。
Sam Altman’s World now wants to link AI agents to your digital identity
OpenAIのCEOサム・アルトマンのは、TechCrunchのインタビューにて、AIエージェントにProof of Humanfood(人間性の証明)を委任できるようにすることは、エージェントと人間を区別する上で重要だという旨を話しています。
World(もとWorldcoin)といわれているこのプロジェクトでは、虹彩をスキャンして一意のIDを生成して、ブロックチェーン上で保存することで、透明性と改ざんできない人間性の証明を可能にするといいます。
AIエージェントが見分けがつかなくなる中では、適格者をどう識別して、サービスを利用させるか、させないかは今後キーワードとなりそうです。
OpenAI teams up with SoftBank and Oracle on $500B data center project
Stargate Projectは、OpenAI、SoftBank、Oracleなどの企業が共同で推進する大規模AIデータセンター開発プロジェクトです。
総額5,000億ドル(約65兆円)を投資して、テキサス州を皮切りに、全米で複数のデータセンターを構築していくようです。
主要なパートナーと役割
SoftBank: 金融責任を担い、孫正義氏がプロジェクトの会長に就任。
OpenAI: 運営責任を持ち、AIモデルの開発と運用を主導。
Oracle: クラウドコンピューティングインフラの提供。
Microsoft: Azureを通じた計算リソースの提供。OpenAIとの既存の協力関係を強化。
NVIDIA: GPUを含むAI専用ハードウェアの供給。
Arm: 半導体設計を通じたサポート。
報道によると、OpenAIとSoftBankはそれぞれ190億ドル(約2.5兆円)をStargateに出資予定。この金額により両社はそれぞれ40%の所有権を保有するとされています。他の出資者にはMGX(中東AIファンド)などが含まれますが、具体的な出資額は未公開です。
一部の報道(Financial Timesなど)によると、Stargateは現時点で完全な資金計画を確立しておらず、初期出資額以外の資金調達については、既存の投資家からのエクイティ(株式出資)と借入金を組み合わせる予定で、Elon Musk(競合企業xAIの創設者)は、Stargateが十分な資金を確保していないと批判しています。
Muskは現在、アメリカ政府の「Department of Government Efficiency(DOGE)」の責任者として、政府支出の削減を提案する立場にあること、xAIの競合となることからもこういった発言に繋がったのだと思われます。
Transformer2: Self-adaptive LLMs
Sakana AIの研究チームは、従来のTransformerを拡張し、「タスクに応じて動的に適応する」新しいフレームワークTransformer²を開発したとする論文を公開しました。
Transformerは、Googleの研究者らによって2017年に発表されたニューラルネットワークモデルで、自然言語処理(NLP)の分野を一変させたことでも超有名な論文です(参考論文: “Attention is All You Need”)。
Transformerとは
アテンション機構: 入力データ全体の関連性を効率的に学習する仕組み。これにより、長文の文脈を考慮した理解が可能。
スケーラビリティ: 並列処理がしやすく、計算資源の効率的な活用が可能。
このアーキテクチャは、GPTシリーズやBERT、ChatGPTなど、多くの生成AIモデルの基盤となっています。
2段階推論プロセス
Transformer²はAIモデルがタスクに合わせて自分を調整できる新しい仕組みを持っています。
この仕組みを トレーニングフェーズ と 推論フェーズ の2つに分けて解説します。
1. トレーニングフェーズ(モデルを学習する段階)
特異値分解(SVD)で重みを分ける:
モデルの「重み」というデータを特異値分解という方法で分けます。
U: データの形や方向を示す部分。
Σ(シグマ): 一番重要なデータの大きさを表す部分。
V^T: 他の方向性を示す部分。
この Σ(シグマ) の部分を調整して、特定のタスク(例えば数学やコーディング)のスキルを持つ「エキスパートベクトル」を作ります。
エキスパートベクトルを作成:
タスクごとに特化した「スキルセット」を生成します。
例: 数学用ベクトル(Math)、コーディング用ベクトル(Coding)、視覚認識用ベクトル(VLM)など。
2. 推論フェーズ(モデルが答えを出す段階)
Transformer²の推論は 2段階プロセス で行われます。
第一段階:どのスキルを使うか決める
ユーザーからの質問(例: “これは数学の質問です”)を読み取ります。
「この質問にはどのスキルが必要か?」をモデルが判断します。
必要なエキスパート(数学やコーディングなど)を選びます。
第二段階:選んだスキルで回答を作る
選んだエキスパートベクトルを使って計算を行います。
最終的な回答を生成します。
エキスパートベクトルとは?
特定のスキル(例: 数学、プログラミング、視覚認識など)に特化したサブモデル。これにより、特化タスクの効率と精度を大幅に向上。
Singular Value Fine-tuning(SVF)
従来のファインチューニング(モデル微調整)に代わり、重み行列の特異値(重要な特徴部分)のみを調整。これにより、少ないデータで効率的かつ過学習を防ぎながら学習を実現。
比較: 従来の「Low-Rank Adaptation(LoRA)」と比べてパラメーターを90%以上削減。
類似手法:MoE(Mixture of Experts)との違い
MoEとは?
混合エキスパートモデルは、複数のエキスパート(サブモデル)を持ち、入力トークンごとに最適なエキスパートを選択してタスクを処理するアプローチ。
高い柔軟性を持つが、エキスパートの選択がトークン単位で行われるため、計算コストが高くなる傾向があります。
Transformer2との違い
プロンプト全体を評価: トークン単位ではなく、入力全体を評価して適切なエキスパートを選択。
強化学習を活用: エキスパートを訓練し、それぞれの分野で最大限の性能を発揮するよう設計。
Transformer2は、従来よりも広範なタスクに柔軟に対応できるため、AIの実践的な応用をさらに広げる可能性があるとされています。
特に、複数分野を横断するタスク(コーディングとブラウザユーズの組み合わせなど)での活躍が期待されているそうです。
Common pitfalls when building generative AI applications
生成AIを開発するうえで、陥りがちな落とし穴について解説がされています。どれも芯を食っている印象です。
生成AIが不要なところで使おうとする
プロダクトの失敗をAIのせいにする
初めから複雑なことをやる
80%から完成までの難しさを過小評価する
人力評価をしない
戦略を立てずにボトムアップの小さな利用に留まる
詳細は記事をご覧いただくと良いと思います。
今回は以上です。
SaaSビジネスの裏側のストーリーについては、以下の記事で解説しています。このような内容に要望があれば、読者の反応を見ながら解説をまた行います。