この投稿について「本当?」「DFR用途なのにそれでいいの?」「そもそもなんでわかるの」、と思った人がいると思うので、Frameにマイナスイメージを与えないように情報を追加します。
※VRChatにおける表現力や精度に関する投稿ではありません。
※現時点で確認できる情報からの一見解です。
わたしが「高精度な視線入力を主目的にした設計ではないかもしれない」と思った理由は至って単純で、パンケーキレンズなのに片目あたりカメラが1つしかないように見えるから、そしてIR Glintが確認できなかったからです。
実機の内部映像は確認済みです。
カメラについて
通常、パンケーキレンズに搭載される高精度なアイトラッキング、特に視線でUIを操作できるレベルを目指すものでは、片目あたりカメラが別の角度から2台ついている例があります。
Apple Vision Pro、Galaxy XRなどがわかりやすい例です。
これは1つの角度から見たときに見切れてしまったり、目の形や装着位置の個人差で捉えられない状況を防いだりなど、さまざまな理由があります。
もちろん、用途によってカメラの個数は変化します。
カメラが1つだからダメ、という話ではありません。
Steam Frameのカメラが1つに見えるのは、DFR、DFEのために必要十分な構成として設計されたものだからではないかと推測しています。
基本的にこれらの機能は、両目が見ている場所をある程度捉えられれば成立しやすく、点の精度だけでなく、むしろレイテンシや安定性が重要になります。
アルゴリズムとIR Glint
精度の高いアイトラッキングは、それだけアルゴリズムの処理が大きくなり、レイテンシも悪化する可能性があります。
自分で作っていてもそう感じました。
アルゴリズムの種類を大きく分けると、ランドマーク 計算 画像認識、画像認識 機械学習、機械学習などに分類できます。
もちろん必ずしもこの分類だけではありません。
Apple Vision Pro、Galaxy XR、Quest Pro、Pimax / Tobii、Varjoなどは、ランドマーク 計算 画像認識に近い方式だと考えています。
冒頭で言及したIR Glintのことです。
レンズのリング周りなどに配置されたIR emitterが眼球の表面に反射し、それがカメラによりランドマークとして認識され、角膜中心、眼球中心、装着ズレなどを求める計算に使われます。
かなり単純化すると、
眼球中心をGlintなどから推定する
→ 瞳孔中心を画像認識で求める
→ 眼球中心から瞳孔中心に線を引く
→ それが視線方向、つまりgaze rayになる
という流れです。
ほかにも3D reconstructionを使ったさまざまな方法がありますが、こういった認識方法を広くまとめてPCCR系と呼ぶことがあります。
ズレに強く、安定していて、キャリブレーションを多く必要としにくい、かなり完成された方式です。
Steam Frameに話を戻すと、このランドマークになるIR Glintが確認されていなかったため、上記のタイプではない可能性が高いと見ています。
ただし、断定はしません。
もしそうなら、画像認識や機械学習をより強く使う方法になると思います。
もちろん、わたしが思い付かない画期的な方法の可能性もあります。
1つ言えるのは、DFRやDFE用途であれば問題なく使えるように設計されているはず、ということです。
目玉機能でもあるので、そこは当然かなり重視されていると思います。
ただ、今ある情報だけを見る限り、視線で小さなUIを正確に操作するような点の精度、たとえば角度誤差±1°〜0.5°のようなレベルを、すべてのユーザーで安定して出すのは原理的に簡単ではないように見えます。
見えていないだけでGlintが存在する可能性はもちろんあります。
映像の条件で確認できなかっただけかもしれません。
これはあくまで私の一見解として捉えてもらえれば嬉しいです。
Steamframeのアイトラ用のカメラ、角度と視野角beyondとほぼ変わらんくて草
Glintも見えないし...精度を求める設計でないことはわかった