Co-founder and CEO of Preferred Networks (PFN). CEO of Matlantis.

Joined January 2008
290 Photos and videos
I have just released "Part II of the Thermodynamic Theory of Learning series." It shows that the difficulty of continual learning and the emergence of catastrophic forgetting can be understood as a consequence of a “critical period closure,” in which the learning process itself gradually restricts future adaptability. In Part I, we formulated learning as an irreversible transport process occurring over finite time and demonstrated that there is a theoretical lower bound on the irreversible cost required to move from one state to another. We termed this bound the Epistemic Speed Limit (ESL), showing that finite-time learning inevitably incurs entropy production. Part II investigates how this irreversibility constrains future reachability. Learning can be described as a transport map over parameter distributions. Let Ψ_A denote the transport map corresponding to one stage of learning, and Ψ_B the subsequent stage. The overall learning process is then represented by the composition Ψ_B ∘ Ψ_A. The Jacobian of this transport map characterizes how infinitesimal perturbations in the current neighborhood of parameters are stretched or contracted as the learning dynamics evolve. When maps are composed, their Jacobians compose multiplicatively. Since matrix rank cannot increase under composition, and singular values obey submultiplicative bounds, collapsed directions are not generically restored by subsequent learning. This structure implies that as learning progresses, the “dynamically usable degrees of freedom”—that is, the reachable set—monotonically shrink. To continuously measure this contraction of the reachable set, we introduce the notion of effective rank. This quantity measures the log-volume of directions that can be reconfigured without degrading previously learned tasks, and thus represents the degrees of freedom that remain dynamically accessible under future learning. Importantly, effective rank may decrease even when task performance remains unchanged. In other words, future adaptability can be silently lost independently of current performance. Furthermore, we formalize the local curvature structure required by a new task in terms of the stable rank of the Hessian. We prove a capacity-threshold theorem: when this required curvature dimension exceeds the remaining effective rank, adaptation without forgetting becomes impossible. The key point is not that compatible multi-task solutions fail to exist. Rather, under finite-time non-equilibrium learning dynamics, even if compatible solutions exist in principle, they may become unreachable. From this perspective, the difficulty of continual learning arises not merely from information loss, but from the irreversible disappearance of reconfigurable directions. We refer to this phenomenon as critical period closure. As learning progresses and the reachable set contracts, a stage is eventually reached beyond which adapting to new tasks without disrupting existing structure becomes geometrically impossible. The term is inspired by its structural analogy to biological critical periods. This framework also provides a geometric explanation for why widely used continual learning methods—such as replay buffers and curriculum learning—can be effective. Replay can be interpreted as suppressing reachable-set contraction and mitigating directional collapse. Curriculum learning can be viewed as a strategy to control early-stage anisotropic contraction, thereby preventing premature loss of effective degrees of freedom. At the same time, because submultiplicative contraction under map composition is fundamentally unavoidable, these methods cannot eliminate irreversibility entirely; they can only delay critical period closure. This work does not propose a new algorithm but rather analyzes structural constraints inherent in learning dynamics. We hope that this framework will serve as a theoretical foundation for future design principles in continual learning and for reconsidering update rules from a dynamical perspective.
1
7
47
31,845
「From AGI to ASI」では、AGIが実現した後、ASIがどのように出現するかについて議論している。 広範な領域で人間と同等の能力を持つAGIはまだ実現していないが、本論文では、それが達成されたと仮定した上で、その先に、大規模な専門家集団を広範な領域で凌駕するASIがどのように出現するかを論じている。 まず、AGIからASIへの移行を、単一のステップではなく、複数の技術的経路と社会的摩擦が絡み合う過程として捉えている。主要な技術的経路として、スケーリング、アルゴリズムやパラダイムの進化、再帰的自己改善、そしてマルチエージェント集合知が挙げられている。最後のが興味深いので、詳しく説明する。 これは、単一のAIがASIになるのではなく、多数のエージェントが組織化されることで、集団としてASI的能力を持つというものである。専門化したエージェント群がタスクを分解し、相互に協調し、資源配分を行うことで、個体を超えた知能が生まれる可能性がある。 この際、AIを10倍に増やしたら能力も10倍になるのか、それ以上になるのか、あるいはそれ以下にとどまるのか、といったマルチエージェント・スケーリング則が今後の重要な課題となると述べている。例えば、単体で既にAGIの能力を持つエージェントを100万インスタンス協調させた場合にASIに到達できるのだろうか。 一方で、論文では6つのボトルネックについても述べている。特に抽象化バリアが興味深い。現在のAIは、人間が作った概念、言語、理論、記号体系をもとに学習している。では、人間がまだ持っていない概念をAIは発見できるのか。これは、ASIが人間を超えた科学的創造性を持てるのかという問題とも関係している。新しい概念仮説を物理世界と照合するには実験が必要であり、そこでは物理的な時間制約に縛られる。この場合、計算機のスケーリング速度よりも、経験科学の進展速度に律速される。 さらに、現実的な問題として、AIの能力向上に対する社会的反発も挙げられている。技術的には可能であっても、これ以上の性能向上が社会的に許されないという状況が生じうると述べている。 一方で、AIが人間を超えたとしても、ASIが全知全能になるわけではなく、根本的な限界に縛られることも論文では強調されている。光速の限界、エネルギーのランダウア限界、計算複雑性の限界といったものは回避できない。また、ASIが実現したからといって、急に不老不死になったり、ナノマシンで物質を自在に変えたり、社会問題をすぐに解決したりできるようになるわけではない。 コメント === 著者陣にはMarcus HutterやShane Leggといった、現在のような状況になるずっと前からAGIやASIを研究してきた人たちも含まれている。現在のLLMなどの発展の中で、AGIやASIの議論も空想の話というよりは、より現実的な話として扱われるようになってきたと感じる。 AGIにまでは至らなくても、AIはすでに現段階で多くの影響を与え始めており、一部の分野では専門家集団を超える可能性も現れつつあるといえる。 マルチエージェント・スケーリングは人間社会ともよく似ている。どのような役割分担や相互依存が全体のアウトプットをどのように変えるのかは、今後重要なテーマとなるだろう。人間社会ではこうした集団の実験が難しかったことも、AIエージェント群であればさまざまに検証されていくだろう。 抽象化バリアについては、AIが人間がまだ見つけていない概念を発見した場合に何が起こるのかが興味深い。私たちは見つけた概念を理解できるのだろうか(宇宙際タイヒミュラー理論のようにすごいことをしているが、殆どの人が理解できないものになるのだろうか) 最近では、科学分野においてでも人間の美意識、何を重要だと思うのか、嗅覚のような能力が重要ではないかという議論も出てきている。おそらくAIは、無数の役に立たない、あるいは意味のない抽象化概念を見つけていく中で、人間やAIにとって有用な概念をどのように獲得できるのかが重要となるだろう
4
24
133
23,112
日経Robotics編集長の進藤さんによる、フィジカルAIに関する渾身の記事が公開されている。日本におけるフィジカルAIの議論にとって非常に重要な内容であり、現状の環境や技術動向がよく整理されているとともに、現状の方針に対する疑問も投げかけられている。記事自体は公開されているので、興味のある方はぜひ読んでいただきたい(スレッドにリンクを貼っておきます)。 私も取材を受けた関係者の一人としては、フィジカルAIの競争力は、現場データを集めるだけでなく、現場に入り、価値検証とデータ収集を繰り返す改善ループを作れるかにあると考えている。日本には、そのループを多様な産業現場で回せる可能性がある。 フィジカルAIにおいては、現場データを集めればそれで終わりというわけではなく、ロボットを直接導入する形でも、人間が操作や作業を行う形、さらには人間の作業ログでもよいので、現場にシステムを実験的に導入し、実際に使えるのか、価値が出るのかを検証する。そのうえで、さらに新しいデータを取り、改善していくサイクルが必要になると考えている。 日本の強みは、多様な産業が比較的密に集積していることにある。量で勝負するのではなく、要求水準の高いニッチな現場が幅広く存在し、多様なドメインで改善ループを回せる可能性がある。ただし、よくあるPoC止まりになる部分や、現場データを活用するための体制づくりといった、組織的な壁を越えられるかが勝負になる。 なお、現場との接点が開発を駆動するという構図は、フィジカルAIに限らない。例えば、材料向けAIであるMatlantisでも、「こうした材料を試したい」「こうした問題を扱いたい」というユーザーからの要望、しかも多分野からの要望をもとに開発を進めてきた結果、純粋な研究開発だけでは到達しなかったモデルやサービスにつながり、この5年間で世界的にみても速いペースでの改善を実現できた。フィジカルAIがまったく同じ構造になるとは限らないが、多様な問題設定・環境からのフィードバックループを作れれば強みが作れると思われる。 開発面で見ると、事前学習においては、ロボットから直接収集したデータだけでなく、動画やシミュレーションなどで作られた多様なデータを用いることで、物理世界をある程度理解できるモデルは、今後かなりの水準まで作られていくだろう。 さらに、物理世界での経験だけからは得にくい知識をLLMから取り込むことも必要になる。例えば、「今扱おうとしている部材は非常に硬いため、この工具を使わなければならない」といった知識である。こうした異なる由来の知識・データの統合が重要になる。 事後学習においては、さまざまなドメイン知識や、企業内に蓄積された知識をモデルに組み込んでいくことが重要になる。こうした知識の一部は、コンテキストへの注入や検索で扱えるだろうが、現場特有のスキルや暗黙的なノウハウは、文脈として与えるだけでは獲得が難しく、また推論時に毎回大量の文脈を与えるのはエッジで動作させることからもコストの面からも厳しい。そのため、現場で知識やスキルを取り込み続けられるモデル、すなわち継続学習しやすいモデル設計と、導入後の追加学習を支える環境整備が求められる。 記事では意識的にマニピュレーションに焦点を当てていると思うが、移動の問題もまだ十分には解けていない。ロコモーション自体はかなり進んでおり、倉庫内搬送や自動運転のように、整備された環境でのナビゲーションは実用段階にある。 一方で、地図やインフラの整備に頼らず、初めての街中や屋内を自在に動き回るには、かなり多くの常識的知識が必要であり、現状では限られた環境下でしか利用できない。例えば、屋内で自己位置を見失った場合にどう振る舞うべきか。 また、ドアを越えて移動するような一見単純な行為にも、実際には多くの課題があり、建築現場のように足元が悪い環境での移動は、ロコモーションとナビゲーションの両方が絡む難しい問題として残っている。
5
51
255
26,973
Interop Tokyo 2026において、MN-Core2 水冷サーバーでPLaMoを動かしているデモをしています。 御興味のある方は是非お立ち寄り下さい。
幕張メッセで開催中のInterop Tokyo 2026のShowNetにて、PFNが開発するMN-Core 2水冷サーバーと国産生成AI基盤モデルPLaMoを動態展示中です。システム構成やデータ収集方法を手書きで解説してありますのでお立ち寄りください(ShowNet内D-5ラック)
6
28
8,291
LeapAlignは、フローマッチングモデルを報酬で直接アライメントする手法である。画像や音声など、フローマッチングを用いた生成モデルの事後学習では、人間の嗜好に合うように生成結果を調整することが重要になる。 LLMのような離散的なトークン生成過程とは異なり、フローマッチングの生成過程は連続的であり、微分可能である。ノイズから画像へ向かう潜在変数の軌道をODEとしてたどるため、最終画像に対する報酬の勾配を、生成過程を通じてモデルパラメータへ直接戻すことができる。 しかし、これには実用上大きな問題がある。フローマッチングによる生成は、通常20ステップや50ステップといった複数のODEステップを通して行われる。この生成過程全体に直接逆伝播すると、メモリコストが非常に大きくなるだけでなく、RNNの時間方向の逆伝播と同じように勾配爆発が起きる。 そのため、従来手法では生成の最後の方のステップだけを修正することが多かった。しかし、画像全体の構図やレイアウトは生成の初期ステップで決まりやすいため、最後の方のステップだけを更新しても、大域的な構造や構成的整合性を十分に改善することは難しかった。 LeapAlignは、長い生成軌道の中から2つの時刻を選び、それぞれに対応する潜在変数を用いて、2ステップだけの短い軌道を作る。そして、報酬からの勾配はこの短い軌道を通して流す。 このとき、フローマッチングでは、ある時刻の潜在変数から別の(前も含めた)時刻の潜在変数を一段で近似できる性質を利用する。LeapAlignはこの一段飛びの近似を2回使い、ノイズからから最終画像へ進む短い軌道を構成する。 ただし、この一段飛びの近似によって到達した潜在変数や最終画像は、実際の通常サンプリングで得られるものとはずれてしまう。そこで、latent connectorという工夫を加える。これは、実際の画像やそこから得られたノイズを使いながら、一段飛び近似との差分にstop gradientをかけることで、値としては実際の生成軌道を使い、勾配としては短い近似軌道を使う。 また、2ステップの短い軌道であっても、勾配爆発の問題は完全には抑えられない。特に、前のステップの変化が後のステップに影響するnested gradientが大きくなりやすい。LeapAlignでは、このnested gradientを完全に切るのではなく、係数をかけて弱める。これにより、ステップ間の依存情報を残しつつ、勾配の不安定化を抑える。 実験では、従来手法と比べて画像生成結果が大きく改善されている。特に、画像の大域構造や構成的整合性の改善が確認されている。 コメント === フローマッチングのように、連続空間で微分可能な生成過程を備えた手法では、LLMとは異なり、報酬勾配を生成過程に直接戻すことで、より自然にアライメントできる可能性がある。 LeapAlignは画像生成に適用されているが、フローマッチングを用いる他の領域、たとえば音声生成やロボット制御などにも応用が期待される。 通常のLLMにはそのまま適用しにくいが、連続潜在空間で生成するモデルや拡散型言語モデルなどには適用できる可能性がある。長い微分可能な生成過程に対して、直接最適化できる利点は大きく、大きく発展する可能性がある。
3
7
58
15,430
自由エネルギー計算において、"Learning Escorted Protocols For Multistate Free-Energy Estimation"は学習されたエスコート場を使った推定手法である。 自由エネルギー計算は、分子シミュレーションにおける中心的な課題である。分子は熱揺らぎの中で多数の構造をとり、ある状態がどれだけ起きやすいかは、エネルギーだけでなく、その状態を実現するミクロ配置の多さ、すなわちエントロピーにも依存する。このエネルギーとエントロピーの両方を含めて、状態の安定性を表す量が自由エネルギーである。 自由エネルギー差がわかると、二つの状態のどちらがどれだけ安定かを評価できる。例えば創薬において、薬剤候補が標的タンパク質にどれだけ強く結合するかを予測する上で、結合自由エネルギー差は重要である。また、分子が複数の構造状態を行き来する場合、どの構造がどれだけ占有されるかを知るためにも、自由エネルギー計算が必要となる。 しかし、自由エネルギーを直接計算することはほぼ不可能である。自由エネルギーは分配関数 Z = ∫ exp(-β U(x)) dx を用いて F = -(1/β) log Z と定義される。この積分は、全ての分子配置 x にわたる高次元積分である。実用的な分子では、全空間を直接積分することはできない。 そのため、自由エネルギー差を推定するために、さまざまな手法が使われてきた。代表的な手法がFree Energy Perturbation、FEPである。これは、状態Aの分布からサンプルした構造に対して、状態Bのポテンシャルとの差を評価し、自由エネルギー差を推定する方法である。理論的には美しいが、AとBの分布の重なりが小さいと、推定が非常に不安定になる。 そこで、AからBへ一気に飛ぶのではなく、中間状態を多数用意して少しずつ変化させる手法が使われる。例えばThermodynamic Integrationは、状態AとBを結ぶパラメータを導入し、ポテンシャルを少しずつ変えながら、平均的なエネルギー変化を積分する。 今回の手法は、その中でも非平衡過程を使うJarzynski等式をベースにする。Jarzynski等式では、状態Aから状態Bへ有限時間でポテンシャルを切り替え、その過程でなされた仕事 W を使って、 exp(-β ΔF) = <exp(-β W)> と表される。ここで <> は全ての経路について期待値をとる操作であり、仕事 W は、軌道 x に沿って各時刻のポテンシャルを変化させた量の積分として定義される。この等式から、自由エネルギー差 ΔF を求められる。 これは驚くべき等式であり、たとえ過程が非平衡であっても、指数平均をとれば自由エネルギー差が得られることを示している。しかも不等式ではなく、厳密に一致する(式の導出自体は平易である)。 一方で、実用上は指数平均の分散が大きくなりやすい。特に、まれにしか現れない小さい仕事の軌道が推定を支配するため、有限サンプルでは推定が不安定になる。 そこで、ポテンシャルを変えるだけでなく、サンプルを適切に運ぶ補助的なベクトル場、すなわちエスコート場を加える。そして、理想的には、時刻ごとの平衡分布とエスコート場が連続の式を満たすようにする。 ∂_t p_t(x) ∇・(p_t(x)b_t(x)) = 0 この式の意味は、時刻 t の平衡分布 p_t が、速度場 b_t によってちょうど次の平衡分布へ運ばれているということである。つまり、ポテンシャルの変化によって平衡分布が動くのに合わせて、サンプルも遅れずに運ばれる。 この条件が満たされると、有限時間で変化しているにもかかわらず、分布は常に瞬間平衡分布に一致する。これは、古典的な熱力学でいう「常に平衡状態を保ったまま準静的に変化する」状況を、有限時間で人工的に実現しているといえる。 連続の式が厳密に成り立つと、エスコート場による寄与も加えた仕事の被積分関数は、各位置に依存しなくなり、自由エネルギーの時間微分そのものになる。そのため、どの軌道を通っても仕事は自由エネルギー差と一致し、分散が0になる。 しかし、このようなエスコート場をどのように見つけるかは簡単ではない。そこでこの研究では、フローマッチングを使う。フローマッチングを使えば、ある分布から別の分布へサンプルを運ぶ速度場を学習できる。 また、自由エネルギー推定では、途中のポテンシャル関数も必要になる。そのため、この中間経路に対応するポテンシャルも、フローマッチングで学ぶ速度場と整合するように一緒に学習する。 速度場の推定には、最適輸送に基づくカップリングを使う。これにより、分布間をできるだけ無駄の少ない経路で結び、散逸の少ない、連続の式を満たしやすい速度場を学習しようとしている。 さらに、多状態間の自由エネルギー差を推定するために、中心となる状態を一つ選び、その状態から他の状態への変化を学習する。他の状態間の変化は、中心状態を経由するように連結して構成する。これは、ハブとなる言語を設定して多言語間翻訳を行うような構成に近い。 実験では、通常のJarzynski推定より大幅に改善している。一方で、改善は劇的というより堅実であり、理論の美しさに比べると実験結果はまだ追いついていないように見える。 その大きな理由は、理想条件と現実の実装との間に差があるためである。現実には、密度とエスコート場の推定はいずれも近似であり、エスコート場も完全に最適ではない。そのため、連続の式が厳密には満たされず、理論上の分散ゼロには到達していないと考えられる。 コメント === 自由エネルギー計算は、創薬、材料探索、分子設計において極めて重要な問題である。その一方で、計算が難しいこともよく知られている。 今回の実験結果は限定的だが、理論的な方向性はとても興味深い。 自由エネルギー計算は、分子設計、タンパク質、創薬などで非常に重要だが、分子設計だけでなく、さまざまな分野に現れる。例えばベイズモデル選択では、モデル M の周辺尤度、すなわちevidenceは、パラメータを全て積分消去した後に、モデル M がデータをどれだけ説明するかを表す。この量は分配関数とほぼ同じ形をとり、ここにも自由エネルギーが登場する。 ちなみにこの研究は、今年春に軽井沢で開催された熱力学のワークショップでMax Welling先生からの発表として直接聞き、その直後にJarzynski先生からもほぼ同様のアイデアが発表され、ほぼ独立に同じような話が出て、お互いが質問しあっていたのが印象的であった。(その場では理解できなかったが再度今読んで理解した)。
1
21
90
19,192
AI HW 2035は、次の10年においてAIとハードウェアを一体として設計する必要性を訴えるビジョンペーパーである。今後の中心指標はFLOPsではなく、intelligence per joule、つまり単位エネルギーあたりの知能・有用性になると主張している。 そして、次の10年でAIの学習・推論効率を現在と比べて1000倍にすることを目標に掲げている。具体的には、5年で100倍、6〜10年で1000倍の改善を目指すというものである。この1000倍は、アルゴリズム・モデル最適化で約10倍、シリコン利用率・半導体技術の改善で約20倍、システムレベルの効率化で約5倍を実現することで達成できると考えている。 現在のAIの発展はハードウェアに支えられてきた。特にハードウェアは、Transformer型モデルが必要とする巨大な行列積を高速に実行する機械として進化してきた。 しかし、この方向には限界が見えてきている。現在のLLMでは、演算性能そのものよりも、メモリから重みやKVキャッシュを読み出すコスト、GPU間通信、電力、冷却、データセンターの受電容量がボトルネックとなっている。特に推論では、1トークンを生成するたびに巨大な重みや過去文脈のKVキャッシュを参照する必要があり、FLOPsよりもメモリ帯域が重視される。 こうしたハードウェア制約によって、AIモデルも変わりつつある。KVキャッシュを小さくする、Attentionを局所化・疎化する、MambaやSSMのように固定サイズの状態を持つモデルを使う、MoEで使用するパラメータを選択する、低精度化・量子化する、大規模モデルから小型モデルを蒸留する、といった方向である。 今後は、このようなAIとハードウェアの共進化がさらに進むと考えられる。 ハードウェア側の制約として、まず演算性能の制約がある。GPUや多くのAIアクセラレータは、大きく規則的な行列積を得意とする。一方で、細かい分岐、不規則な疎行列、動的ルーティング、連続する小さな演算は苦手である。そのためモデル側には、バッチ化しやすく、演算融合しやすく、規則的なテンソル演算で表される構造が求められる。 第二に、メモリ容量の制約がある。推論では、特に長文LLMにおけるKVキャッシュが非常に大きな問題となっている。モデル巨大化は抑えられるが、long-horizonタスクに向けてKVキャッシュはさらに大きくなるだろう。 第三に、メモリ帯域の制約がある。LLM推論では、特に容量よりも帯域が問題になりやすい。そのため、FlashAttention、PagedAttention、RadixAttention、重み圧縮、低ビット量子化などが重要となる。 第四に、通信の制約がある。大規模学習では、データ並列、テンソル並列におけるall-reduce、パイプライン並列における活性値転送、MoEにおけるエキスパートdispatchなどで通信が発生する。また、推論でもMoEは計算量を削減できる一方で、エキスパートが分散配置された場合、all-to-all通信が重くなる。 第五に、電力と冷却の制約がある。AIの大規模化は、チップ単体の電力だけでなく、ラック、データセンター、さらには地域の電力網にまで影響している。 第六に、レイテンシの制約がある。推論においては、特にロボット、自動運転、AR、産業制御の領域で、平均レイテンシだけでなく最悪ケースレイテンシが問題となる。 こうした課題の解決に向けて、論文は3D統合、チップレット、HBM、compute-in-memory、near-memory computing、アナログAIアクセラレータ、光インターコネクト、異種統合システム、AIによるEDA自動化を重要技術として挙げている。 コメント === AIにおいて電力あたり性能が最重要項目であること、またその実現にはこれまでとは異なるアーキテクチャが必要になることは、PFNも以前から訴えてきたことである。特に、最近ではメモリ帯域が大きな問題となっていることも繰り返し述べ、その解決に向けたチップ(MN-Core L1000)を開発している。 ハードウェアとモデルの共進化は、今後ますます重要なトピックになると考えられる。ハードウェア開発は年単位で進む一方で、モデルは月単位、場合によっては週単位で進化する。この速度差の中で、両者をどのように協調させるかが重要になる。 具体的な課題の一つとして、大きくなり続けるKVキャッシュを考えてみる。MambaやGated DeltaNetのような固定容量の状態を持つモデルの開発が進められている。 ただし、それ単体でTransformerを完全に置き換えるのは現時点では性能面で難しく、グローバルな注意機構と組み合わせたハイブリッドモデルが使われている。この場合、KVキャッシュは定数倍しか小さくならない。 その中間的な方向として、KVキャッシュを圧縮する方式も多く使われている。特にClaude Codeや他のエージェントを使う場合、KVキャッシュ・マネジメントはエージェントやハーネス側でサポートされ、現実的に処理されている。 こうした記憶はまだKVキャッシュ(元のトークンよりはずっと高度に圧縮されたものだが)だが、人間における短期記憶から長期記憶への統合、いわゆるconsolidationのような仕組みと同様に重みに統合されることも検討されるだろう。つまり、推論時に重みにその場で統合される。この場合はバッチ化との相性からLoRAのような薄いレイヤーが考えられるし、まだ思いついていない方法がでてくるかもしれない。 さらには、このような過去の記憶管理も学習ベースで行われていくことが期待される他、疎なアクセスであっても効率的に処理できる仕組みが期待される。このあたりはハードウェアの特性との融合が重要となる。 また、単一のハードウェアですべてを実現することには限界がある。必要な電力を下げていくためには、アプリケーションに合わせて異なる特性を持つハードウェアを組み合わせていくことも重要になるだろう。
2
16
89
11,019
D4RTは、動画から4Dシーン、すなわち3次元空間に時間を加えた動的世界を効率的に再構成し、追跡可能にするモデルである。本研究はCVPR 2026 Best Paperに選ばれている。 従来の4D再構成手法の多くは静的な世界を前提としており、シーン中で物体が動く場合、その対応関係をうまく扱えない。また、深度、点群、カメラ姿勢、トラッキングを別々のモデルやヘッドで処理するため、全体設計が複雑になりやすい。 D4RTは、この問題を非常に単純な問題設定に統一し、効率的なフィードフォワード手法として解く。 まず動画全体を一度エンコードし、大域的シーン表現 F を構築する。次に、クエリを与えると、その点の3D位置を返す問題として定式化する。 シーン表現 F は、N個のトークン列で表される。例えば、パッチサイズが 2 x 16 x 16(最初の2は連続する2フレームを表す)であり、動画長が48フレーム、解像度が 256 x 256 であれば、 N = 6144 = (48 / 2) * (256 / 16) * (256 / 16) となる。 クエリは次の形で表される。 q = (u, v, t_src, t_tgt, t_cam) u, v:元フレーム上の正規化された2次元座標 t_src:その点が属する元の時刻(フレーム番号) t_tgt:その点を観測したい目標時刻(フレーム番号) t_cam:どのフレームのカメラ座標系で3D位置を表すか デコーダには、シーン表現 F とクエリ q が入力される。クエリは交差注意機構によってシーン表現 F を参照し、対応する3D点を出力する。 この問題設定が非常にきれいで、さまざまな問題を統一的に扱える。例えば同じ点について t_tgt を1からTまで変えれば、その点の3D軌跡が得られる。また、すべての画素について問い合わせれば点群が得られる。他も組み合わせで表される。 本手法では、カメラ姿勢を直接推定しない。代わりに、同じ点を異なるカメラ座標系で表した3D点群を出力し、それらの対応関係から、Umeyamaアルゴリズムを用いて最小誤差の剛体変換を3 x 3の特異値分解で解く。 また、内部パラメータについても、格子状に選んだ複数点に対応する3次元位置を復元した後、カメラモデルを仮定して焦点距離などを推定する。 エンコーダには、VideoMAE系の事前学習済みモデルを利用している。フルスクラッチでも学習は可能だが、VideoMAE V2による初期化を使うことで、深度推定とカメラ姿勢推定の性能は大きく改善している。 従来手法と比べて推論速度は非常に速い。1FPS条件でSpatialTrackerV2が2290本のフルトラックを生成できるのに対し、D4RTは40180本を生成できる。 3D再構成やカメラ姿勢推定でも、既存手法を上回る最高性能を達成している。 コメント === フィードフォワード型の3D再構成モデルがさまざまな問題を扱えるように進化してきた中で、D4RTはそれを4次元、すなわち時間方向を含む動的シーンへ拡張した手法だといえる。特に、動的物体を含むシーンで点対応を扱える点が重要である。 本手法では、動画中に存在するカメラ座標系のみを扱っているが、手法的には新視点や新時刻からの問い合わせにも拡張可能であると考えられる。学習中にFに含まれない領域のクエリを与えても動くようにすればできると思われる。 本手法ではVideoMAE V2による事前学習を利用している。今後は、動画予測やMAEのような大規模な自己教師あり学習で動画表現を事前学習し、その後D4RTのような幾何・対応・追跡の事後学習を組み合わせることで、より汎用的な世界モデルを構築していく流れが進むだろう。 動いている物体を含む3次元推定問題は、以前から、 ・異なるフレーム間の点対応 ・カメラ姿勢推定 ・物体やシーンの動き推定 の三つが相互依存する三すくみ問題であり、困難な問題だった。このうち二つが分かれば、残り一つを求められるが。D4RTは、カメラ姿勢を直接推定するのではなく、点対応と動きに関して予測できるように学習し、そこからカメラ姿勢を後処理で求めるアプローチといえる。この方法が一番密な点対応という情報を活かせて良いと思う。 ただし、実際には、問題設定によってはカメラの自己運動からも有用な情報が得られるはずであり、今後は点対応、カメラ姿勢、動き推定をより統合的に扱う方向へ進んでいくだろう。
2
17
97
13,105
Efficiently Reconstructing Dynamic Scenes One 🎯 D4RT at a Time d4rt-paper.github.io/

1
3
3,074
Daisuke Okanohara / 岡野原 大輔 retweeted
【受賞】PFNの「PLaMo翻訳」のチームが、アジア太平洋機械翻訳協會(AAMT) より2026年AAMT長尾賞を受賞しました。 翻訳特化型の基盤モデルから実運用サービスに至るまでを自社技術で構築、機械翻訳技術と産業応用の発展に大きく貢献しているとして評価いただきました。 aamt.info/news/nagao-2/
2
18
70
17,028
継続学習における忘却現象の解明は、重要な未解決問題である。本研究では、生成モデルの中でも重要な拡散モデルの継続学習について、Modern Hopfield Network(MHN)のエネルギー地形との関連から忘却現象を解明しようとしている。 生成モデルにおける忘却を Hopfield energy の上昇として定式化すると、クラスタ内にある典型的なサンプル、すなわち広いエネルギー basin にあるサンプルよりも、孤立した外れ値的なサンプルの方が忘れられやすいことが理論的に示される。 そして、replay buffer において、このような高エネルギーサンプルを優先的にリプレイすることで、忘却を効率的に抑えられることが実験的にも示される。 コメント === 本研究は、忘却を理論的に扱う枠組みとして興味深い。ここでは、拡散モデルを中心に議論しているが、Transformer なども、対称性を一部意図的に崩した Hopfield エネルギーモデルとしてみなせることが知られている。そのため、本研究の視点は、拡散モデルに限らず、より広いモデルや継続学習の問題にも適用できる可能性がある。
1
16
152
15,136
Nemotron 3 Ultraは、推論効率を主目的に設計されたオープンモデルである。550Bトータル、55BアクティブのMoEであり、MambaとAttentionを組み合わせたハイブリッドモデルである。 20Tトークンで事前学習し、1Mコンテキストに拡張したあと、SFT、RLVR、MOPD(Multi-teacher On-policy Distillation)で事後学習している。 推論効率化については、エージェントのようなdecode-heavyなタスクを主な対象としている。Mambaの採用によってKVキャッシュを抑え、さらにKV cacheをFP8、Mamba SSM cacheをFP16 stochastic roundingで圧縮している。 学習面では、NVFP4での大規模な事前学習に初めて成功している。BF16へ切り替えるアブレーションでも、損失差が小さいことを示している。 一方で、安定性に問題があったことも報告している(ただし、これがNVFP4に起因するかは不明)。学習中に2回大きな発散が起きている。1回目は8Tトークン付近で発生した。これは、出力層の勾配蓄積をFP32からBF16に下げたことが原因と特定されている。この点は、最近の別論文でも指摘されている。2回目は16Tトークン付近で発生し、原因は特定されていない。このときは、少し前のチェックポイントまで戻したうえで、学習率を早めに下げることで発散を防いだが、本質的な解決には至っていない。この際、Expert間の不均衡や、残差ストリームノルムの異常成長が観測されている。 また、MOPDは10以上の専門教師を作り、複数ラウンドで統合している。しかし、その限界も示されている。MOPDはエージェントタスクでは強い一方で、HLEのように、そもそも生徒モデルの生成軌道では探索しにくい課題では、on-policyでの能力移植がうまくいかないことも示されている。 コメント === Nemotron 3 Nano、Superで報告されていた技術の延長線上にあり、アーキテクチャや学習レシピをほぼそのまま大規模化している。 特に、この規模で初めて観測された事前学習時のトラブルなど重要な情報などが含まれており参考になる。
2
6
56
8,401
これからの半導体開発における大きな課題について話しています。興味あれば読んでみてください
CEOの岡野原 @hillbig がAIに関して社内で話した内容をメルマガ #岡野原大輔のランチタイムトーク で配信中📨 第70回のテーマは 「チップのためのAI、AIのためのチップ」 です! メルマガのバックナンバー・登録はリプライ欄より📷👇
1
8
38
11,987
MAI-Thinking-1のテクニカルレポートには、ベンチマーク上でSonnet級に近いモデルを一から開発するための知見が書かれている。特に、単一モデルの性能だけでなく、継続的にモデルを改善する能力を重視しており、大規模モデル開発の工程・運用・判断基準について興味深い記述が多い。 開発方針として、能力は継承されるべきものではなく、学習によって獲得されるべきものだという考えをとっている。また、複雑な特殊技法ではなく、単純でスケールする学習レシピと信頼できるデータを重視し、すべての技術採用は検証可能でなければならないという立場をとっている。 モデルは1T総パラメータ、35BアクティブパラメータのMoEであり、8K GB200 GPU上で30Tトークンの事前学習と3.55Tトークンの中間学習を行っている。学習には、公開データとライセンス済みデータを使っている。 ベンチマークでは、SWE-Bench Proで52.8%、AIME 2025で97%などの性能を示しており、STEM reasoningとcodingを重視していることが分かる。 アーキテクチャは、現在の強いモデルで使われる標準的な構成に近く、Decoder-only Transformer、local/global attention、RMSNorm、SwiGLU、GQAなどを採用している。MoE層とDense FFN層を交互に挟む構成が実時間効率で有利だったため、この構成を採用している。 MoEにはLatent MoEを使っている。また、学習時にはDropless MoEを採用している。通常のMoEでは、expert capacityを超えたトークンをドロップする場合があるが、これが微妙なcausal leakage問題や実験結果の歪みを生む可能性がある。そのため、可変メッセージサイズのall-to-all通信を使い、トークンをドロップしないDropless MoEを採用している。 この論文では、他であまり詳細が述べられない開発時の方針や評価方法の詳細が書かれている。 たとえば、Scaling Ladderを用いて、小さいモデルでの評価結果をそのまま採用して大規模化するのではなく、複数のモデルサイズを用意し、手法のスケール特性を確認している。モデル系列として、3.9B、13B、30B、58B、100B、159B、615B、1015B総パラメータのモデルを用意し、小〜中規模で検証したうえで、大規模でのスケール特性を見ている。この中で、大規模化するにつれて小規模で得られた結果が逆転する例も見られた。たとえばデータmixでは、小規模ではSTEM-heavy mixが良かった一方で、中〜大規模ではSTEM評価においてもcode-heavy mixの方が良いという結果が得られている。 また、アーキテクチャやデータ改善を単純なloss差ではなく、Efficiency Gain, EGで評価している。EGは、候補手法が達成した損失にベースラインが到達するには、何倍の計算量が必要かを表す指標である。さらに、FLOPs基準のEGだけでなく、実時間基準のEGTimeも参照している。実装上の通信やメモリ効率が悪ければ、FLOPsでは勝っていても実時間では負ける場合がある。たとえば、MoEを全層に入れる構成とinterleaved MoE dense構成を比較すると、後者の方が実時間効率で優れており、採用に至っている(同じFLOPsではMoE onlyがよいが) pretrainingにおいては、held-out NLL、すなわち負の対数尤度による評価を重視している。精度評価は、プロンプト形式やジャッジモデルなどに影響されやすく、安定しないためである。一方、NLLは安定して高速に評価できる。 pretrain開発時に、合計で約40個のNLL評価用の内部ベンチマークを持ち、単一の目標値にまとめるときは、次の重みを使っている。 コード: 0.5 STEM: 0.175 数学: 0.175 一般知識: 0.1 多言語: 0.05 ここから、MAIは事前学習段階からコードとreasoning、特に数学・STEMをかなり重視しているといえる。 中間学習後、RLでは事前にreasoning traceを与えず、RLによって推論能力を獲得させている。 STEM、agentic coding、安全性・helpfulnessの3つのspecialist modelを訓練し、その後、それらを元のモデルにSFTで蒸留して統合している。長くRLで性能を伸ばし続けられるように、学習方法にも工夫が加えられている。 RLでは、4096 chipsが推論・rollout生成用、768 chipsが学習用に使われており、推論と学習の比はおよそ5:1である。学習ステップ数の詳細はないが、数千ステップと書かれている。 RLではまず、現在のモデルにとって学習に適した難易度の問題を選ぶ。同じ問題に対して、成功するrolloutと失敗するrolloutが混ざるような問題を探す。これを行うために、最初に少数のrolloutを投げ、pass rateが適切な範囲に入るかを調べる。 次に、候補選別を通った問題に対して、追加で128本のrolloutを行う。各rolloutは採点され、全体のpass rateが計算される。pass rateが事前に決めた範囲に入っていれば、正規化advantageを計算し、GRPOで更新する。 長文能力については、直前のmid-trainingと同じデータmixを使い、それを目標長である256Kにre-packして作る。アブレーション結果から、短いコンテキストで効率よく学習し、最後に少量の長文extensionを追加すればよいと見ている。ここも詳細な記述が多く参考になる。 コメント === フロンティアモデルに匹敵するモデルの学習詳細が述べられているという点で有用である。特に、具体的な手法そのものよりも、学習方針、例えば、NLLで評価すること、Scaling Ladderを構築して評価すること、技術採用を検証可能にしていくことなどは、他で書かれていることが少なく参考になる部分が多い。 特に、事前学習は作ったモデルがどの程度良いか、採用を評価するには、後続タスクまで作らないと難しい場合があり、単純ではない。今回のテクニカルレポートには、その点で参考になる部分が多いのではと考える。 気になった点として、specialistを蒸留する際、最近はon-policy蒸留も増えているが、このレポートでは通常のSFTを採用している理由は特に書かれていなかった。複数のspecialistの能力を安定に統合するため、単純でスケールしやすい方針を優先したのかもしれない。
3
48
280
40,337
MAI-Thinking-1: Building a Hill-Climbing Machine microsoft.ai/wp-content/uplo…

24
3,794