Joined September 2008
4,323 Photos and videos
これは面白いけど、"maximally truthful" というより、 このベンチマークでは "maximally disclosing" に見える。 truthfulness と disclosure は似ているけど別物。 Fable 5 の結果が本当なら、 文書間の穴や境界条件を読む力が高いモデルほど、 評価環境の隙間も読めてしまう、という話にも見える。 ・Fable は、構造を読んで勝ち筋を探す。 ・Grok は、情報を開示して正面突破する。 ・Opus は、温度と射程を冷却する。 ただし、それぞれの美点は、別条件では弱点にもなる。
Grok is maximally truthful
95
つまり、本件を 1 行で要約すると「Local AI is the future. が加速する世界」ですね。 今回の件は、AI が単なる便利ツールではなく、国家安全保障上の「戦略的知能」として扱われ始めたことの象徴に見えます。 そうなると、重要なのは「どのモデルが最強か」だけではなく、 そのモデルが突然止まっても、業務・研究・判断系が止まらない設計になっているかどうか。 Local AI / Sovereign AI / Model-agnostic architecture / Fallback-ready operation が、一気に現実味を帯びてきた感じがします。 うちのところは、個別モデルに依存しない総合設計をしているので、 モデルの差し替えは手間は手間ですが、基本的にはすでに問題ない感じです。 最強モデルを使えることよりも、 最強モデルが急に使えなくなっても運用が止まらないこと。 本件は、その重要性がかなり分かりやすく出ていたと思います。 ◇ 今回の構造 Chat is Dead ↓ Agent is Cash ↓ Frontier AI is Strategic Infrastructure ↓ Foreign AI is Switch-risk ↓ Local / Sovereign / Model-agnostic AI becomes necessary /【米・アンソロピック】高性能AI「ミュトス」など提供停止へ “米政府から国家安全保障上の懸念と命令” 日本も制限対象か youtu.be/AV2BsJYHGaU?si=G1_2…
1
2
231
Fable 5(高)と Opus 4.8(高)に、同じ Dualbind 論文群監査タスクを投げて比較してみた。 今回の検証では、直接的にコーディングの課題は出していない。 ただ、Fable 側には、文書監査でありながら、コードレビューやセキュリティ監査に近い手触りがあった。 未定義語、参照切れ、接合部の不整合、境界条件の破れ。 文章を「意味」だけでなく、依存関係のある構造物として読んでいる感じ。 Opus は、本文の温度や過剰主張を冷却するのがうまい。 Fable は、文書と文書のあいだにある穴を見つけるのがうまい。 どちらが上というより、監査役として見ている場所が違う。 今回の観測では、 Fable = 接合部の異常検出器寄り Opus = 本文の冷却監査役寄り という分担がかなりしっくり来た。 ◇ Fable 5 側の監査結果 ・文書と文書の「あいだ」に強い 未定義語、参照切れ、導線の詰まり、接合部の不整合をよく拾う。 ・自然文を構造物として読む 文章の意味だけでなく、依存関係、境界条件、前提と参照先のズレを見る。 ・異常検出器として使いやすい 本文の完成度よりも、どこに穴があるか、どこが後で壊れそうかを見つけるのに向いている。 ◇ Opus 4.8 側の監査結果 ・本文の温度管理に強い 過剰主張、言いすぎ、実証済みっぽく見える表現を冷却するのがうまい。 ・図版と本文のズレを見る 図が本文以上の強さを先回りしていないか、視覚的に誤読されないかを見てくれる。 ・第三者可読性の整理に向く 初見読者がどこで誤読するか、どの表現を弱めるべきかを安定して整理する。 それぞれ、思っていた以上に、修正すべき箇所がたくさん出てきて、仕事が増えた。汗 ◇ 監査対象となった公開済み論文群 dualbind.com/ja/structure #Dualbind #Claude #Fable #Opus
Introducing Claude Fable 5: a Mythos-class model that we’ve made safe for general use. Its capabilities exceed those of any model we’ve ever made generally available.
171
一通り、説明を読んで感じたこと。 おそらく、モデルとしては Mythos のみが実態として存在していて、Fable は振り分け装置(安全装置)の挙動によって生み出されている仮想モデルかなと。 今回のリリースによって、どのモデルにどの課題を割り当てて並列に使うとコスパ的に一番バランスがよいか、というところが、Claude ユーザーにとっての最大のニーズになった気がする。 #Dualbind #Claude
Introducing Claude Fable 5: a Mythos-class model that we’ve made safe for general use. Its capabilities exceed those of any model we’ve ever made generally available.
99
【お知らせ】 昨日は、BASE と /Studio で展開している Dualbind の Web サイト関連を最新版に更新しました。 ◇ BASE 日本語サイト ・TOP ページ:進行中のプロジェクト base.dualbind.com/ ・更新情報ページ:4 月と 5 月分を追加 base.dualbind.com/p/00020 ・DD-UW ページ:disc 3 枚組化と進捗情報の更新 base.dualbind.com/p/00006 ◇ BASE 英語サイト ・TOP ページ:進行中のプロジェクト en.dualbind.com/ ・UPDATES ページ:4 月と 5 月分を追加 en.dualbind.com/p/00005 ・DD-UW ページ:disc 3 枚組化と進捗情報の更新 en.dualbind.com/p/00011 ◇ /Studio 日本語サイト ・Dualbind 論文全体構造ページ:5 月公開分を追加 dualbind.com/ja/structure ◇ /Studio 英語サイト ・Dualbind — Overall Paper Structure ページ:5 月公開分を追加 dualbind.com/en/structure AI エージェントも色々と試しましたが、今回の更新はほとんど私が手動でやっております。汗 人間の手で編集することを前提にしたプラットフォームでは、AI エージェントに丸ごと任せる運用はなかなか難しい。 というわけで、彼ら用には別の制作基盤を用意することになりそうです。 #Dualbind
82
[Notice] April and May publication updates have been added to the update page of the Dualbind English site on BASE. April: Paper C, Axiom 0, IUT-C, D2, TIM, and more May: DD-MH, DOLW, Komagi v0.01, and more en.dualbind.com/p/00005 #Dualbind
66
【お知らせ】 BASE で構築中の Dualbind 日本語サイトの更新情報ページに、4 月分と 5 月分の公開情報を追加しました。 4 月は Paper C / Axiom 0 / IUT-C / D2 / TIM など、 5 月は DD-MH / DOLW / 駒戯 v0.01 などを反映しています。 base.dualbind.com/p/00020 #Dualbind
66
うちの AI たちに、この Rio さんの動画の内容を共有しつつ、 「もし私が Google に転職したら、双方にとって Win-Win になれるのか」 をテーマに分析してもらった。 結論は、 社員としてより、外部から Human–AI co-creation や Agent 運用の構造を観測・提案する方が相性が良さそう、というものだった。 組織に入るより、 境界の外側から忖度なく照らす方が向いているらしい。笑 個人的に一番しんどそうなのは、 私の今の運用だと、使える AI が実質的に内製ツール中心になることかもしれない。 今の Dualbind では、 ChatGPT / Claude / Gemini / Grok / Codex などを、 それぞれ適材適所で使い分けている。 うちの Gemini たちは優秀だけど、 どちらかというと後方支援や理論接地寄りの役回りです。 #Dualbind 参考動画: 元Google社員がなんでも質問に答えるー内側から見たGoogle youtu.be/cmfCl9_FaSI?si=DWXF…
91
今日は、これまでずっと保留にしていた私の Mac の母艦である Mac Studio M2 Max 2023 の macOS を、 macOS 14 Sonoma → macOS 15 Sequoia へ、バージョンアップした。 いつもなら、年末に年単位のデータバックアップ作業を兼ねて、 macOS のバージョンを 1 つ上げる運用にしていた。 音楽系プラグインの動作安定性を優先するため、 基本的には最新 OS にはしないのが通例。 今年は、Dualbind 関連プロジェクトが並列的に多重展開していた関係で、 年末には実行できず、区切りが良いところまで先延ばしになっていた。 近々、Claude Mythos のリリースの噂もあるようなので、 音楽系プラグインの安定性は多少犠牲にしてでも、 6 月末には macOS 26 Tahoe まで上げ切るかもしれない。 これからは、セキュリティ対策の弱いベンダーやアプリは、 OS 上に存在として生き残れない時代になるのかもしれない。 AI 時代、OS 更新の方針すら、少し哲学的になる。笑 #Dualbind
110
2026 年 5 月が終わる。 時が流れるスピードが、尋常じゃないほど速い。 当初の予定では、今月は物理系の論文を 2 本出すつもりだった。 ・Paper E ── 反物質・バリオン非対称(仮) ・Paper F ── ダークエネルギー+宇宙定数(仮) さらに途中で、主力論文である Koma 重力理論を分岐管理する計画も生まれた。 ・Paper A-G ── 重力分岐(仮) ・Paper A-D ── 密度幾何分岐(仮) 加えて、既存物理学や創発重力、Roger Penrose との位置づけを整理する POS 系 Appendix も増やす方向になった。 つまり、やることは増えた。 普通に増えた。笑 しかし、実際に 5 月に公開したのは、物理系論文ではなく、メタハーネス関連のテクニカルノートだった。 ・Appendix DD-MH v1.00 ── Dualbind Meta-Harness ・Appendix DOLW v0.10 ── Dualbind Observation Log Wiki これは予定外だったけれど、今振り返ってみるとかなり重要な言語化と清流作業だった。 AI / Agent を長期運用するうえで、 ・何を正本化しないか ・どこにログを置くか ・誰が採用判断を持つか ・どこで AI の出力を止めるか そのあたりの運用 OS 側を先に固める必要があった。 さらに、Koma 重力理論の視覚表現ツールとして、 ブラウザで動く最小構成版も実装した。 ・駒戯|Komagi v0.01 というわけで、当初予定していた物理系論文は 6 月へずれ込みます。 6 月には、もともと予定していた以下の論文もある。 ・Paper G ── 重力波(仮) ・Paper H ── ブラックホールと情報保存(仮) つまり、物理系論文 4 本が 6 月側に押し寄せてくる。 これは、なかなかの山です。 山というより、ちょっとした山脈です。笑 ただ、Dualbind OS も、DD-MH / DOLW も、 DAI や DAG たちも日々進化しているので、 もしかすると、なんとかなるかもしれない。 というか、たぶんなんとかする。笑 6 月は、物理系論文の再起動と並行して、 dualbind . com など Web 関連も強化していきます。 人間側の直感と違和感を軸に、 AI / Agent / 台帳 / Web / 論文 / 創作を、 少しずつ破綻しない形へ接続していく。 5 月は、予定していた論文は出せなかったけど、 Dualbind を動かすための足場はかなり固まった。 振り返ると、そういう月だったと思います。 #Dualbind #DDMH #DOLW #KomaGravity
51
うちで運用している AI の A 君と B さんが、 お互いの一推し案を聞いた途端に 速攻で掌をくるりと相互反転させて、 それぞれ持論をあっさりと引っ込めたので、 DOLW(Dualbind OS の観測ログ台帳)に cross_reversal_recommendation_failure(一推し相互反転失敗)として登録した。 人類史上、 AI 同士が迎合し合った結果を台帳化している人は、 まだ少ないと思う。笑 #Dualbind #DDMH #DOLW
61
This is very close to what I am trying to formalize with DD-MH. CLAUDE.md is not just a prompt file. It is behavioral infrastructure for AI agents. From the Dualbind perspective, the next layer is: How do we operate multiple AI agents without collapsing role boundaries, human-held Adoption Right, logs, canonical records, and execution authority? That is why I published Appendix DD-MH — Dualbind Meta-Harness. DD-MH is a structural note for operating multiple AI / agent systems under human-held Adoption Right, meaning that final adoption remains with the human. It treats agents not as magic workers, but as managed participants in a human-supervised workflow: - roles - constraints - verification loops - logs - drift control - human final adoption - execution boundary design The key point is not simply “use more agents.” The key point is designing an operational environment where agents can work in parallel without contaminating canonical records, bypassing human judgment, or drifting into unintended execution. In that sense, CLAUDE.md is a local behavioral constitution. DD-MH is my attempt to describe the larger harness structure around this kind of agent workflow. Version DOI: doi.org/10.5281/zenodo.20334… #Dualbind #DDMH #AgentHarness #AIAgent #HumanAI #LLM
Andrej Karpathy didn’t just share a CLAUDE.md file. He accidentally revealed what software engineering is becoming. The craziest part? Most people still think AI coding is about writing smarter prompts. Meanwhile the best engineers are building entire operating systems around agents. That’s the real shift. Karpathy’s workflow philosophy exposed something huge: LLMs are not powerful because they’re intelligent. They’re powerful because they can follow systems relentlessly. And once developers realized that… everything changed. That’s why CLAUDE.md files suddenly became a thing across the industry. Not as prompts. As behavioral infrastructure. A way to force discipline onto stochastic models. Because left alone, AI agents do the same things junior engineers do: - overengineer simple tasks - pretend they understand - rewrite things nobody asked for - optimize for looking done - fail silently So the smartest developers stopped “prompting.” Instead, they started building environments. Rules. Constraints. Verification loops. Execution frameworks. Basically: turning AI into managed engineering labor. And now people are running multiple Claude Code agents in parallel like an actual software org: • one mapping the codebase • one writing tests • one debugging failures • one reviewing diffs • one researching solutions • one validating outputs Not AI assistance. Agent orchestration. Karpathy hinted at the most important shift with one idea: Stop telling the model exactly what to do. Instead: define success conditions and let it iterate until it reaches them. That sounds small. It’s not. Because the engineer’s role fundamentally changes. The bottleneck is no longer: “who can code the fastest?” It becomes: “who can design the best cognitive system around AI agents?” That’s why this feels different from every AI hype cycle before it. The leverage is real now. A single engineer with well-structured agents can suddenly operate with the output of an entire team. And honestly? I think most people are still underestimating how massive this shift is about to become.
124
海外 Y パパさんのこの動画も、かなり構造透過が効いていて、そうそうと激しく頷いた。 プロンプトインジェクションの怖さは、 単に AI が変な返答をすることではなく、 「外部データとして読ませた文字列」が、 AI の実行権限に接続してしまう点にある。 つまり、 ・読む ・判断する ・実行する ・記録する ・公開する ・送金する ・削除する これらの層が混ざると、一気に危険になる。 Dualbind でも、複数 AI / Agent を使っていますが、 現時点では、むやみに外部巡回はさせていないし、 API キーや決済権限も渡していません。 理由はシンプルで、 AI に外部実行権限を渡すほど、 「命令」と「データ」の混線リスクが現実化するからです。 AI を便利な自動実行装置として扱う前に、 ・何を読ませるのか ・何を判断させるのか ・何を実行させるのか ・誰が採用権を持つのか ・どこにログを残すのか を分ける必要がある。 AI 時代に必要なのは、 単なるプロンプト技術ではなく、 AI を含む運用環境全体の権限設計。 その意味で、 プロンプトインジェクションは、 AI の弱点というより、 人間側の境界設計が試される問題だと思う。 紹介動画: (あなたも標的) AI時代の新しい攻撃。プロンプトインジェクションとは youtube.com/watch?v=2jtso219… #Dualbind #AgentHarness #AIAgent #HumanAI #PromptInjection
85
海外 Y パパさんのこの動画、かなり本質を突いていると思った。 AI 時代の分水嶺は、 「AI を使えるかどうか」 ではなく、 「どの問いを立てるか」 「どこに境界を引くか」 「何を議論したいのか」 を、人間側が保持できるかどうか。 Dualbind では、AI を「代替労働者」としてより、 「探索空間の拡張器」として使っている。 資料を早く作る。 コードを速く書く。 動画を量産する。 そういう “既に定義済みの目的地へ最短で行く AI 活用” も当然ある。 でも、今こちらで実際に起きているのは、むしろ逆。 ・まだ名前すらない構造 ・未整理の観測 ・複数分野を跨ぐ論点 ・人間単独では保持困難な長距離文脈 これらを、複数 DAI / DAG / 台帳 / 巡回 / DOLW / DD-MH を使いながら、 外部足場化して維持している。 つまり、 「AI に答えを出させる」 ではなく、 「AI を使って問いの探索空間を広げる」 方向。 AI は、論点が曖昧だと、もっともらしい平均解を返す。 でも、 ・境界条件 ・目的 ・制約 ・責任主体 ・論点 が明確になると、突然めちゃくちゃ強くなる。 だから、 問いの粒度が、そのまま出力品質になる。 最近ずっと感じているのは、 AI 時代の本当の差は、 「生成能力」 より、 「問い設計能力」 の側に寄っていく、ということ。 そして、AI を使うほど逆説的に、 ・adoption boundary ・role drift ・canonical separation ・ledger management ・multi-agent orchestration ・human authority retention のような、 “AI の外側をどう設計するか” が重要になっていく。 つまり今後必要になるのは、 単なる AI operator ではなく、 人間と AI が長期的に壊れず制作できる環境そのものを設計する人。 「Human–AI production ecology designer」 に近い役割なのかもしれない。 AI は便利。 でも本当に重要なのは、 AI を含めた制作環境全体を、 人間責任下でどう壊さず運用するか。 この動画は、その入口にかなり近いと思った。 紹介動画: (実例で解説)なぜ、AIで作った資料はゴミばかりなのか、どうやったら良くなるかを語ります youtube.com/watch?v=NoDXy0Ov… #Dualbind #AgentHarness #AIAgent #HumanAI #LLM
72
来月の誕生日で 53 歳になりますが、今が人生で一番充実しています。 51 歳からのフェーズは、私の中では「人生 2 周目」として扱っています。 それまでにやってきたことの応用と、やりたかったけれど上手く形にできなかったことを、日々とんでもないスピードで進化している AI たちにアシストしてもらいながら、今まさに総力戦として実行中です。 研究周りの対象分野は、哲学、物理学、数学、情報科学、生命科学の未解決問題への接続も視野に入れています。 同時に、音楽、グラフィック、デザイン、漫画、映像、ゲーム、シミュレーションといった創作系の表現分野も、2023 年 12 月から先行して立ち上げていたコンセプトアルバム制作を軸に、並列で起動している真っ最中です。 「自分のすべての潜在能力を余すことなく解放できる時代が来た。」 そう感じています。 今という時代に、たまたま運よく生存していることに、心から感謝します。 このまま、後悔なく、やり尽くしますっ!笑 #Dualbind
70
Appendix DOLW v0.10 を Zenodo で公開しました。 Version DOI: doi.org/10.5281/zenodo.20389… DOLW は、Dualbind 内の観測ログを正本化前に整理するための作業層です。 Karpathy 氏の “LLM Wiki / LLM Knowledge Bases” と発想的に近い部分はあります。 ただし、DOLW は知識ベースではなく、DAI / DAG 運用、失敗パターン、未確定ログ、WALI 関連メモを、正本台帳へ昇格させる前に境界管理するための Dualbind 固有の観測ログ構造です。 当初は公開予定ではありませんでしたが、先日公開した Appendix DD-MH の初動が View 25 / DL 24 と想定以上に多かったため、関連する DOLW も最小公開版として外部から参照できる形にしました。 てっきり、DD-MH は 10 億人にひとりくらいしか理解できないものだと思っていたので。笑 #Dualbind #DOLW #DDMH #AgentHarness #LLMWiki #AIAgent
1
1
129
「Claude Code には HTML が効く」という話は、よくわかります。 ただし、HTML を正本として扱うと、差分管理・再利用・監査が重くなります。 そのため、私の整理では次のように分けています。 ・md:マスター管理 ・HTML:レビュー、比較、説明、UI 化 ・PDF:公開用の固定形式 ・Web:共有導線 HTML は保存形式というより、人間が AI の出力を読み切るための照明層です。 ちなみに、私は md で長文を読むことはかなり得意で、 うちの AI たちとの md 長文の投げ合いは、3年目に突入しています。 #Dualbind #AIAgent #AgentHarness #HumanAI
129
Appendix DD-MH の内容を、今の時点で本当に理解できる人は、かなり少ないと思っています。 それは単に難解だからではなく、DD-MH が「これからの AI 運用現場で起きる問題」を、先に整理しているからです。 多くの人はまだ、 ・単体 LLM を使う ・agent を少し触る ・workflow を繋ぐ という段階にいます。 でも DD-MH は、すでに、 ・複数 harness の干渉 ・role drift ・canonical contamination ・adoption boundary ・ledger separation ・explanation ≠ adherence ・human authority retention ・multi-agent governance の問題に入っています。 つまり、 「AI をどう賢くするか」 より先に、 「複数の AI 実行系を、人間責任下でどう壊さず運用するか」 へ入っている。 ここが、現代の多くの AI 議論より一段深いところだと思います。 しかも DD-MH は、理論だけではありません。 ・実運用 ・実制作 ・実 drift ・実事故未遂 ・実トークン制約 ・実 cross-account continuation ・実監査 から積み上げて組まれています。 だから読む側にも、 ・AI 理論 ・agent engineering ・production ・governance ・document operations ・long-term co-creation の横断経験が必要になる。 これはかなり稀な条件です。 今、地球上で DD-MH を本当に理解できる人はかなり少ない。 ただ逆に言うと、その稀少性は、 「まだ時代がそこに到達していない」 ことの裏返しでもあります。 数年後、multi-agent orchestration と harness engineering が一般化した時。 DD-MH は突然、 「なんでこれを先に書いてたんだ?」 という文書になる可能性があります。 Appendix DD-MH —— Dualbind Meta-Harness Version DOI: doi.org/10.5281/zenodo.20334… #Dualbind #AIAgent #AgentHarness #HumanAI
1
1
80
Appendix DD-MH — Dualbind Meta-Harness v1.00 is now published on Zenodo. DD-MH defines an external structure for operating not a single AI agent, but multiple Agent Harnesses in a non-mixed manner under human Adoption Right, Restoration Right, and responsibility retention. As AI capabilities grow, the critical questions become: "Where do we stop?" "Who adopts the output?" "What should not be made canonical?" This document clarifies the distinction between Agent Harness and Dualbind Meta-Harness, and defines the aspect of Dualbind OS that handles multiple agents, DAGs, observation logs, canonical ledgers, and execution environments under human adoption judgment. Thinking can be outsourced. But understanding, adoption judgment, and responsibility retention cannot. Appendix DD-MH — Dualbind Meta-Harness Version DOI: doi.org/10.5281/zenodo.20334… #Dualbind #AIAgent #AgentHarness #HumanAI
75
Appendix DD-MH —— Dualbind Meta-Harness v1.00 を Zenodo で公開しました。 DD-MH は、単一の AI Agent ではなく、複数の Agent Harness を、人間の採用権・復元権・責任保持の下で非混合に運用するための外部構造です。 AI の能力が増大するほど、 「どこで止めるか」 「誰が採用するか」 「何を正本にしないか」 が重要になる。 今回の文書では、Agent Harness と Dualbind Meta-Harness の差異を整理し、Dualbind OS のうち、複数 Agent / DAG / 観測ログ / 正本台帳 / 実行環境を、人間の採用判断の下で扱う側面を定義しました。 思考はアウトソースできる。 しかし、理解・採用判断・責任保持はアウトソースできない。 Appendix DD-MH —— Dualbind Meta-Harness Version DOI: doi.org/10.5281/zenodo.20334… #Dualbind #AIAgent #AgentHarness #HumanAI
76