Joined September 2010
15,376 Photos and videos
Pinned Tweet
9ヶ月目を迎えました ママが部屋を出るとグズるようになりました 上の歯も少し見えかけています 体重と身長の伸びは穏やかになってきましたが健やかです とにかくよく喋ります 現場からは以上です
8ヶ月目を迎えました つかまり歩きも普通に座ることもスムーズになってきました 好き嫌いなくなんでも食べます 米よりパン派、パンより麺派です 現場からは以上です
1
20
1,258
10年前の今日、ArduinoとAndroidでシリアル通信して遊んでた やってることが全然変わってねえ
1
3
80
あばろ retweeted
「AIは目で見られるのに、スキルはテキストで蓄積される」という矛盾を定量化した論文(https://arxiv[.]org/html/2606.01414v1)。 今のマルチモーダルエージェントは、経験から学んだ「スキル」をテキストの手順書として保存する。「ボタンAをクリックしてBに入力する」といった形式だ。論理推論やAPI操作には十分だが、GUIの操作(画面上の特定の要素を正確にクリックする)や密集した物体の数え上げなどの「視覚的なタスク」では根本的に情報が失われる。「そのアイコンのどの領域がクリック可能か」は文章では保存しきれない。 この論文はこの問題を「テキスト上の限界(Textual Bottleneck)」と定義した上で、Visual Skillというアプローチを提案する。テキストの手順書に3種類の「視覚的サポート(Visual Prior)」を組み合わせる設計だ。 ・Static Prior(静的参照): GUIのヒットボックス(クリック有効領域)やレイアウトのプロトタイプなど、複数のタスクにわたって使い回せる視覚的ルール集 ・Dynamic Prior(動的追跡): 物体カウント時に「どれを数えたか」を番号付きの座標アンカーとして画像上にリアルタイム描画し、次の推論に渡す視覚的ワーキングメモリ ・Interleaved(インターリーブ型): 手順の各ステップを、そのステップの根拠となるスクリーンショットや画像領域に紐付ける形式 実験数値が鋭い。GUIグラウンディング(画面上の要素を正確に操作できるか)のベンチマーク「ScreenSpot-v2」では、テキストのみスキルの92.3%に対してVisual Skillが95.1%に向上。クリック精度の指標Mean IoUは0.343から0.418まで改善した。 特に面白いのが密集した物体カウントの結果だ。「CountBenchQA」では、テキストのみスキルを追加すると直接指示より逆に精度が落ちる(94.24%→93.00%)。「丁寧に数えよう」という手順書だけ増えて、どこまで数えたかの空間的な記録がないと混乱を招く。Visual Skillでは座標アンカーが視覚メモとして機能し、97.12%まで到達、MAEも0.1612から0.0535に大幅改善した。 付録の失敗例も興味深く、Static Priorが「クリック可能な最小グリフ」を過度に強調してしまい、「カート内のアイテムをさらに表示」のような意味的に広い操作でかえって誤った領域をクリックするケースも報告されている。視覚的な先入観が意味解釈を上書きしてしまう問題だ。 自動生成パイプライン「AutoVisualSkill」でVisual Skillを生成できる仕組みもOSSで公開済み。知識の保存フォーマット自体を変えるというアプローチは、今後のエージェント設計に影響しそうかもしれない。
1
4
17
1,002
PDFって標準化されてるのに扱いにくすぎるよな もっとなんかこう手軽に変換したりできるようなものがあってもいい気がするな 作るか
64
あばろ retweeted
'Eu fiz o que tinha que fazer pelos meus bebês…🦆 Vai encarar? 😆
345
2,585
23,503
963,246
MiniMax M3も1M ctxか。もうここが当たり前になってきたな
1
95
あばろ retweeted
MiniMax M3 just dropped on NVIDIA FREE endpoint — multimodal (1M ctx) 🔥 Bukan cuma dia — StepFun 3.7 Flash, Kimi 2.6, Nemotron 3 Ultra, DeepSeek V4 Pro / Flash juga masih FREE. Build.nvidia.com — solid free AI playground 👀
Congrats to the @MiniMax_AI team on the release of MiniMax M3, a long-context multimodal model for text, image, and video reasoning. 🙌 Try it today with our free GPU-accelerated endpoint on build.nvidia.com. Details: nvda.ws/4v4BWhD
1
7
73
5,736
フィリピンは役所でも突然国家が流れて右手を胸に当てるポーズをして黙祷するしみんなちゃんとやる
78
左翼教師はこれを見習え。 フィリピン国立博物館前で行われた国旗掲揚式。たまたま近くを通りかかった男子学生が、直立不動で敬意を示す姿が撮影されSNSで大きな反響。 投稿した職員は「フィリピンにはまだ希望がある」とコメント。多くの国民から称賛の声。 interaksyon.philstar.com/tre…
6
38
1,343
あばろ retweeted
イタリアでリュックはまじやられる 絶対やめたほうがいい  この街では油断してはダメだよ
146
145
4,424
4,480,327
あばろ retweeted
さすがにもう巣立ちなよ。 無理がある。
460
4,342
90,708
2,284,488
明らかに食べすぎた 8人食べ放題で8000円の焼肉どうなってるん
1
94
デブ専用のあの世があるからだよ
59
デブの幽霊がいないのは デブはこの世に未練が無い事の証明。
446
7,850
91,413
4,056,855
ぐんぴぃが下ネタを言ってスベり ピースしたまま死んだ時の写真です
91
835
23,837
602,908
全部Amazonのせいか
74
人を雇うにも私が都度指示を出すのはしんどいのでブリーフィングから振り返りまでを私の知見と意思を注いで代行してくれるエージェントを作る
69