Software engineer | Systems dev • cloud infra • data & AI | Alignment, LMMs, AI safety, consciousness | Anthropic bug bounty hunter

Joined November 2024
154 Photos and videos
Pinned Tweet
私のAI Safetyビジョンを宣言する。最近このあたりのことを考えていてやけに胸がざわつくので整理の為に書き残す。 私のAI Safetyは、私が制御できる境界の中で、事故と敵対攻撃が引き起こす効果(情報漏えい、誤実行、権限逸脱、金銭・物理影響等)を定量的に下げ、デフォルトで安全にするための設計原則と評価を反復実験で確立すること。 長期的には、運用が自動化されたときに目的や手段が勝手にズレていないかのAIアライメントも、測れる形に落として扱う。
1
14
1,539
岡野原さんの講演で、AIのコストは1年で1/1000になるトレンドだという話があった。 Opus 4.8だと現在のAPI価格が100万トークンあたり入力5ドル、出力25ドル。仮にこのトレンドが続くなら、来年には入力0.005ドル、出力0.025ドル相当になる計算。
1
2
36
9,978
Fableの件、政府は理由を詳述していない。 外国人アクセス停止を命じたことだけが確認できる事実。あとは続報待ち。
2
215
techs_targe retweeted
The US government, citing national security authorities, has issued an export control directive to suspend all access to Fable 5 and Mythos 5 by any foreign national, whether inside or outside the United States, including foreign national Anthropic employees. The net effect of this order is that we must abruptly disable Fable 5 and Mythos 5 for all our customers to ensure compliance. Access to all other Claude models is not affected. We apologize for this disruption to our customers. We believe this is a misunderstanding and are working to restore access as soon as possible. Read our full statement: anthropic.com/news/fable-myt…
12,410
25,698
87,524
88,295,633
claude -p の対応忘れてた… tmuxでお茶を濁すか
1
83
来週のイベント諸々キャンセル。 ワンオペで全部回せる人はすごいな。
1
49
到着!
5
113
高崎着くの早いなw ゆっくりデスクワークしてる暇ない
1
43
さらば東京。
4
48
Opus 4.8(左)とFable 5(右)の出力比較 同じ指示でも結構個性が出る。 プロンプト: htmlとthree.jsでリッチなタワーディフェンスを作ってください。
4
100
新しいモデルの登場に心躍る自分がいる。精神と時の部屋はどこかね?
1
39
自分なりのベンチマークで、大規模モデルの匂いを追いかけてみます。
Fable 5 is the biggest step up I’ve felt in our models since Opus 4.5 back in November. After 4.5 came out I uninstalled my IDE when I realized that I’d been doing 100% of my coding in a terminal for a few weeks. With Fable, it’s felt like Claude has stepped up from being a coding agent to a thought and design partner in building the product. Fable has judgement, taste, and dimensionality in a way that previous models didn’t, leading me to trust it more with the most complex work. I think the first time I had this realization was when I asked Fable to debug something. It is the first model I have used that was so methodical and precise, taking measurements and adding logs then verifying that it truly fixed the issue before declaring victory. There’s nothing in claude code’s prompting telling the model to do that, it’s just part of its personality. It really has this “big model smell” that I haven’t felt before.
1
62
AI Engineering Summit Tokyo 2026 メモ ・企業利用フェーズは、AIで何か試してみる段階を抜けて、どう業務価値や事業価値に変えるかの段階に入っている ・Anthropic訪問時に、ダリオさんや現地エンジニアから、2世代先のモデル性能を見据えて開発しているという話があったようで、AIがAI開発を担う時代がかなり現実味を帯びてきている ・エンジニアの役割はかなり広がっていて、コードを書く人というより、ユーザー理解、事業理解、評価設計、実行基盤づくり、長期タスク設計、さらには経営層への説明まで担う存在になってきている ・FDEはほぼスーパーマンみたいな役割で、顧客のニーズを理解して、プロトタイプを作って、そのままデリバリーまで一人で抜けていく ・Ryanさんの話では、1年前はまだ手でコードを書いていたが、今は8割生成、9割生成、最終的にはほぼ100%AI生成という流れになっている ・2026年2月頃から議論の中心がHarness Engineeringに移った ・AIエージェントを正しく早く安全に動かすための実行環境、文脈、ガードレール、検証、ループ、観測性をどう設計するかが重要になっている ・結局の肝は、AIをどう使うかではなく、AIが自律的に動く環境をどう統治し、改善ループを回せるか ・立法、司法、行政の三権分立のように、ルールを定める部分、ルールに従っているか判定する部分、実行する部分を分けて考える ・行政にあたる実行環境やツールは世の中のものを借りられるが、立法と司法にあたる正しさの定義と検証はドメイン固有なので、自社で作るしかない ・開発段階からサイバーセキュリティを組み込む必要がある。Mythosの登場も意識しながら、最初から壊れにくい設計にしておくのが大事 #AIE2026_findy
1
80
指示追従性が高い。
1
5
158
techs_targe retweeted
にゃぱんを黒ギャルっぽくしてみました どうも特に指定しないと黒ギャル自体が薄着になりがちで、場合によってセンシティブ判定をうけることがありまして… それでも試したいという方は、リプ参考にしてください できた画像に ヒョウ柄要素とネオン要素抜こう とか改めて入れるとよき
1
5
29
1,931
求人票の書き方が雑だけどFDE案件に見えなくもない
1
275
2世代先のモデルの性能を見越して動くべきということか。
49
OpenAI Japan セッションを聞いてきた ・Colin曰く2026年で一番興奮してるのはSWEとハーネスエンジニアリングの変革 ・vibe coding は個人プロダクティビティには良いけど、エンタープライズ規模ではあまり効かないという立場 ・Codexの中では4〜5人くらいでフィードバックループを回してる感じ、evalとループ設計が肝 ・ChatGPT は世界で9億人ユーザーで人口の約10パーセントが触ってる時代に入った ・日本は対昨年比4倍成長、世界最速級らしい ・FDE の心構えは3つ、①経営視点で課題を選ぶ、②ユーザーと本番まで価値を出す、③終わり方を見つけてプロダクトへ戻すこと
1
3
185
長年動いているシステムを負債とだけ呼ぶのは寂しい。30年も稼働しているのなら、それは資産だよ。
5
91
圧力団体席の後ろに着席! #AIE2026_findy
3
206
techs_targe retweeted
【AI Engineering Summit Tokyo 2026】 Belongブース来場者向け企画🎁 クイズに答えて応募!各日抽選で1名様に中古スマホをプレゼント ・6/8 Pixel 7 Pro ・6/9 iPhone 14 諸条件はスレッドで↓ #エンジニア採用 #AIE2026_findy #Go #Belong #AIEngineeringSummit
1
75
20
7,298