Dashword - Geometry Dash News

Dashword - Geometry Dash News

Random_Goon 3.14

立福 寛

55s

【論文要約】正解データなしでなぜ賢くなる？「VGGT-Ω」の自己蒸留とViTレジスタの妙技こちらはオックスフォード大学とMetaAIによる「VGGT-Ω」というモデルに関する研究です。「VGGT」というモデルの論文が2025年3月に発表されており、「VGGT-Ω」はその改良版となっています。余談ですがVGGTのVGGはオックスフォード大学のVisual Geometry Group(VGG)が由来なんですね。最初にスタンフォード大学と間違って書いていたら、Geminiの添削で「この由来があるので、そこだけは間違えちゃいけません！」と怒られました。どっちもフォードなので間違えました。 arxiv.org/abs/2605.15195 そもそも何をするモデル？「VGGT」の論文を読んでいなかったので、そもそも何をするモデルなのか？　というところから調べていきます。「VGGT-Ω」は入力に複数枚の画像をとり、出力は以下の３つとなります。各画像のカメラパラメータ（位置と向き）各画像ごとの高精度なデプスマップシーン全体の高密度な3D点群（ポイントクラウド）つまり3Dの処理で必要なものが一つのモデルから手に入ります。言語分野でのLLMのように「一つの巨大なモデルであらゆる3Dタスクの土台となる能力を持つ」ことから、「VGGT-Ω」などは「3D基盤モデル」と呼ばれています。フィードフォワードとは？論文中では「VGGT-Ω」は「フィードフォワード型モデル」と呼ばれています。ここでの「フィードフォワード」は何を意味しているのでしょうか？　複数枚の画像から3D形状を復元する研究にはNeRFや3DGS（ガウシアンスプラっティング）といったものがあります。こちらは与えられた複数枚の入力画像に対して、複数回の最適化（学習）を繰り替えして最終的な出力を得ます。これに対して、フィードフォワード型モデルは画像が与えられると、一回の処理で最終結果を出力します。複数回の処理を行うのではなく、一発で結果を出すことを「フィードフォワード型」と呼ぶそうです。既存のフィードフォワード型モデルとの違いは？フィードフォワード型のモデルは「VGGT-Ω」が初めてではありません。既存研究が複数存在します。しかし、既存研究は「静止したシーン」しか扱えませんでした。「VGGT-Ω」は動いているシーンに対しても破綻のない綺麗な3D点群とカメラ軌道を出力することができます。学習方法の工夫は？提案手法では動画に対応するために、桁違いの数の動画にアノテーションできる高品質なデータアノテーションパイプラインを開発しました。しかし、学習方法で一番興味深いのは「自己教師付き学習」や「平均教師法」と呼ばれる、生徒モデル・教師モデルの組み合わせで学習を進める方法（自己蒸留）です。この部分は知らなかったので詳しく調べました。提案手法で使っている自己蒸留について Metaが以前開発したDINO：DIstillation with NO labels（ラベルなし蒸留）で導入された方法を使っています。DINOや「VGGT-Ω」の学習データには正解データが含まれていません。「VGGT-Ω」の学習データは大量の動画から作成するため、それに対応する正確な3D点群などの正解データを用意することは不可能だからです。提案手法では自己蒸留の一種である「自己教師付き学習」や「平均教師法」と呼ばれる方法を使っています。この方法では、生徒モデルと教師モデルに同じシーンから切り出した、少しアングル（静的なシーンの場合）や時間が違う（動的なシーンの場合）状態の画像を与えます。3D空間的には一致しているはずなので、生徒と教師の出力が幾何学的に矛盾のない、整合している状態になるように学習させます。このときに、生徒モデルは「教師モデルの出力」を正解として学習をどんどん進めるのですが、教師モデルのほうは生徒モデルの学習結果をある程度まとめて、その平均を学習結果として反映します。この部分が「運動量（モーメンタム）」と呼ばれています。生徒モデルはどんどん学習を進めるので変な方向に進んだりするのですが、教師モデルは生徒モデルの学習の進み具合を高いところから見て、全体的な方向だけを反映します。この仕組みにより、どちらのモデルも「出力結果は何もありませんでした！」とズルをすることを不可能にします。生徒モデルが「何もなかった！」と報告しても、教師モデルが「以前の状態では物体があると言っていましたよね？」と突っ込めるので、学習が崩壊することを防げるのです。この生徒モデルと教師モデルを組み合わせた学習を行うことで、学習データに正解がなくても、正解に近づけていくことが可能になっています。大変面白い仕組みですね。「VGGT-Ω」における工夫提案手法ではメモリ削減や学習の効率化のために３つの工夫を行なっています。学習可能なレジスタの導入、畳み込み層を単一のMLPに続くピクセルシャッフル演算子に置き換える、マルチタスク学習の損失を利用する、の３点です。ここでは「学習可能なレジスタ」と「ピクセルシャッフル演算子」について説明します。学習可能なレジスタそもそも、ここでの「レジスタ」は何を指すのでしょうか？　これはMetaAIの研究チームの2023年の論文「Vision Transformers Need Registers」で有名になりました。研究チームはビジョンAIのDINOv2モデルの開発をしているときに、何もないはずの背景のアテンションマップの至る所に「おかしな水玉模様」が出る現象を発見しました。調べてみると、ViTは学習を進めると、画像全体の特徴をどこかに保存しておきたくなる性質があることがわかりました。しかし、そのためのトークン（余分なスペース）がないので、空いているトークンに情報を書き込んでいたことがわかりました。ならば画像トークンとは別に、計算用のレジスタトークンをいくつか最後に追加しておけばよい、という結論になりました。この修正で、背景にノイズがでなくなり、本来のモデルの性能も向上しました。以上がViTにおける「レジスタ」の概念の説明です。画像トークンとは別に計算用のトークンを用意しておくということです。「VGGT-Ω」においては、このレジスタを「異なるフレーム間で情報交換をする」ために使い、フレーム間で全体の3D構造の情報を効率よくやりとりすることを可能にしました。ピクセルシャッフル演算子「VGGT-Ω」に限らずViTで高解像度の画像を扱うときに利用されている処理です。ViTは画像解像度が大きくなって、画像トークン数が増えると処理時間が増えます。そこで入力の高解像度の画像を、低解像度だがチャンネル数が多い画像に変換してVitへ入力します。トークン数は少ないのでViTは効率的に処理を行うことができます。出力するときには、多くなってるチャンネルを戻して高解像度の画像を復元します。このときの復元に使われるのがピクセルシャッフル演算子です。たとえば低解像度に変換して「W x H x 4チャンネル」になっている画像をViTで高速に処理します。ここから４チャンネルの情報を「田」のように展開することで「2W x 2H x 1チャンネル」の高解像度の画像に戻します。ここに使われるのがピクセルシャッフル演算子です。これにより、ViTの重い計算は低解像度で高速に済ませて、出力時だけ計算不可ゼロでクッキリした高解像度に戻すという、速度と綺麗さを両立することが可能になります。学習データに文字がないのに「VGGT-Ω」は言語を理解している？この論文は面白いところがたくさんありますが、最後のアブレーションのところがダントツで面白いので紹介したいと思います。研究者らはたくさんの動画を「VGGT-Ω」に入力して、そのとき出力されたレジスタトークンを大量に集めました。このレジスタトークの後ろに１層だけの文字分類器（線形レイヤー）をくっつけます。そして「このレジスタが表しているシーンはテニスコートか？大通りか？というテキストのラベルを当てるゲームをさせました。レジスタの中に「3D点群の情報」のような情報しか入っていなければ、シンプルな分類器では言葉の意味を当てられません。しかし、この単純な分類器だけで、シーンの意味や物体のカテゴリを高精度に識別できてしまったのです。これはレジスタの内容が、最初から「言葉の意味」ごとに綺麗に整理されて並んでいた（言語空間と整合していた）証拠になります。もう一つの実験として、VGGT-ΩとCLIPなどのVLMで埋め込み（レジスタ）を出力させて、それらの間の類似度を調べました。その結果、幾何学的に近いだけでなく、意味的にも近いシーンが同じような距離間で配置されていることが統計的に証明されました。これはVGGT-Ωがテキストを直接学習していないにもかかわらず、現実の3D空間の本質を理解しようとした結果、人間が言語で定義している世界の概念、つまり言語空間と自然に脳内マップがシンクロした、という結果を意味しています。まとめ論文本編では他にもモデルサイズと学習データのスケーリング則に関する話などもあったのですが、省略します。論文本編がVGGTやViTの最新研究、DINOの自己蒸留の手法などを知っていること全体だったので、論文以外のところを調べるのに時間がかかりました。しかし、どの点も今のAIの研究には欠かせない部分だったので、大変勉強になったと思っています。

VGGT-$Ω$

Recent feed-forward reconstruction models, such as VGGT, have proven competitive with traditional optimization-based reconstructors while also providing geometry-aware features useful for other...

arxiv.org