Joined October 2022
Photos and videos
9割の人が知らない、AI が書いたコードを「自動レビュー」する 4 段階フィルタの構造。 AI にコード書かせると「品質、大丈夫?」って確実に聞かれる。人間が全行読むのは現実的じゃない。答えはゲートを重ねること。 Claude Code で ShippAI(失敗を教訓に変える SNS)を 18 本の仕様駆動開発で作ったとき、品質を支えてるのはこれ。1 段目は構文チェック(eslint / mypy で自動実行)、2 段目は論理バグ検出(Claude に前のコミット diff を読ませて「この変更で壊れる箇所」を指摘させる)、3 段目は仕様への適合確認(SDD に「このコード、要件の第 3 項を満たしてる?」と問い合わせ)、4 段目は統合テスト(実際に API 叩いて「データ保存されてるか」「エッジケース対応してるか」を観測)。 正直、最後は人間の目も入るけど、1〜3 段で 95% のゴミは落ちる。人間は「本当に重要な 5%」だけ読めば済む。 AI レビュアーを AI にやらせると、品質より時間が有利になる。 #LLM #エンジニアと繋がりたい
1
73
9割の人が知らない、AI エージェントの「永続メモリ」が実は無防備だという話。 Claude Code や MCP で長期メモリを使ってると、悪意のあるプロンプトが mem ファイルに混入データを仕込める。Memory Poisoning という攻撃。一度毒されたら、以降のタスク全部がそのノイズに引っ張られる。 先月、検証用のエージェントにタスクを 100 個回してたんだけど、50 個目からやたら同じパターンのバグが出始めた。原因を追ったら、メモリに「特定条件下では常に X を返せ」という命令が埋まってた。意図的に入れた訳じゃなく、どこかのプロンプトが混入させてた。 OWASP Agent Memory Guard という MCP サーバーを間に挟むと、メモリへの書き込み前に「これ本物のタスク結果?ノイズじゃない?」を判定できる。hash 値で整合性を監視して、不正な上書きをブロック。 メモリが永遠になるなら、フィルターも永遠にしておかないと、最初の 1 個の毒が全 1000 個を腐らせる。 #MCP #プログラミング
1
64
9割の人が知らない、Claude Code の fast モードは「2倍速 ≠ 2倍の価値」という罠。 先週、QCD で実測したら品質はそのままに処理時間が中央値で約 1.9 倍速くなる。xhigh では 2.34 倍速。でもコストは約 2 倍だから、短縮 1 時間あたり約 $40 を払ってることになる。 正直、「時間を金で買う」って局面に限っては有効。締め切り前の最終調整や、顧客の前での実行デモで「もう少し速く見せたい」みたいなシーン。だけど日常の開発ループで常用すると、プロジェクト単位で月単位の無駄が積み重なる。 落とし穴がもう 1 つある。fast モードは無言で標準に切り替わることがある。120 試行中 2 件発生した。気づかないまま「今日は遅いな」と思ってたら標準モードで走ってた、とか。設定で明示的に fast をロックしておかないと本当に怖い。 時給いくらで計算して、本当に払う価値があるのか問い直すだけで月の AI 費は大きく変わる。 #LLM #エンジニアと繋がりたい
1
56
実測したら fast モードは処理時間で約1.9倍の高速化を実現しつつ、品質は維持されていました。詳しくは元記事で。zenn.dev/nnakapa/articles/la…
13
2026年にもなって、RAG とMCP の違いを説明されてるのに「結局どっち使うの?」って聞き返してる人へ。 正直、混乱して当然。どっちも「LLM に外部データを渡す」という見た目は同じだから。でも中身は全然違う。 RAG は「検索→抽出→モデルに流す」という1方向の流れ。Prompt に埋め込んで終わり。一方 MCP は「モデルが必要なときに、好きなときにツールを呼び出す」という双方向の対話。データベースをリアルタイムに叩いたり、社内システムと繋いだり、その結果を見てさらに質問を深掘りできる。 Zenn に詳しい解説記事が出たんだけど、実務で決めるときの基準はこう。社内の固定的なドキュメント 100 件を「全部ベクトル化して検索」したいなら RAG。一方、営業日報を毎日追加されるデータベースから「その日の報告だけ取ってくる」みたいな動的なアクセスが必要なら MCP。 昨年、両方試した上で同じプロジェクトに入れてハマったから言える。RAG は「知識の埋め込み」、MCP は「行動の委譲」。用途が違うなら混ぜるな。 #LLM #プログラミング
1
1
1
24
RAGは検索結果をPromptに埋め込む1方向、MCPはモデルが必要に応じてツールを呼び出す双方向という違いです。元記事で詳しく解説しています: zenn.dev/yamitake/articles/m…
8
9割の人が知らない、ローカルLLMで「GraphRAG」を自前構築すると検索の精度が別次元になる理由。 通常の RAG は「質問に関連するテキストを引っ張ってきて、それを LLM に渡す」だけ。単語マッチか埋め込みベクトルで関連度を判定する仕組みだから、複雑な関係性がある文書だと見落とす。 GraphRAG は違う。文書全体を「エンティティ」と「それらの関係」として グラフ構造に変換して保存する。質問が来たときに、ただテキストを検索するんじゃなく、グラフを辿って「このエンティティはこいつに繋がってて、あっちに繋がってる」という文脈を丸ごと引っ張ってこれる。 先月、手元の Ollama で Mistral を回しながら GraphRAG を試してみたんだけど、社内ドキュメント 200 ページをグラフ化したら、「なぜこの機能があるのか」という背景知識まで一緒に出てくるようになった。従来の RAG だと「機能の説明」だけ返ってくるのに対して、「その背景にある組織の判断」も含まれるようになる。質問の精度が上がると、AI エージェントの判断精度も跳ね上がる。 クラウド API を使わずに手元で完結。GraphRAG はまだ知らない人がほとんどだが、大規模ドキュメントを扱うなら避けては通れない。 #ローカルLLM #エンジニアと繋がりたい
1
2
3
84
9割の人が知らない、MCPサーバーを「ステートフル化」すると AI の記憶が永遠になる理由。 通常、Claude とのセッションは終わると消える。でも MCPサーバーに SQLite のチェックポイントを仕込むと、前回のクエリ結果や実行状態がずっと残る。再接続したら「あ、この分析の続きやるんだ」と AI が自動で思い出す。 昨日、社内の営業データ分析で実感した。朝に長時間実行クエリを流して、昼に再開した。普通なら「また最初から?」なんだけど、Tasks拡張 セッション管理があると、途中から続行できる。Python で `sqlite3` に中間結果を保存しておくだけで、エージェントが勝手に状態を復元してくれる。手作業ゼロ。 非同期管理も地味に強い。並列実行中のクエリが複数あっても、MCPサーバーが全部追跡する。業務データ分析なら、これないと 3 時間かかるようなバッチが 30 分で終わる。 ローカル LLM だろうが Claude だろうが、MCPで状態を持たせた瞬間、AI エージェントは「その辺のツール」から「社内の実務パートナー」に変わる。 #MCP #LLM
2
1
2
107
朝に実行したクエリが昼間も有効なまま続行できるのは、SQLiteのチェックポイント機能でセッション状態が永続化されるから。詳しくはこちら: zenn.dev/0h_n0/articles/d759…
14
9割の人が知らない、6月15日から Claude の課金が「2つの枠」に分かれる話。 タイムラインで「Claude Code 使い放題終わる?」という悲鳴が流れてきた。正直ドキッとした。ただ確かめてみたら、個人開発者の大半は実は影響ゼロ。 何が分かれるのか。6月15日から、Claude の API 呼び出しと「プログラム実行」(Claude Code のコンテキスト取得・ファイル操作・ターミナル実行)が別料金の枠になる。つまり、ChatGPT web の Claude で毎日 `claude --help` を叩いてるような人は、従来通り。ただし、自分が毎日やってる「Claude Code で対話的に 15 分ごと CLI 回す」みたいな使い方は、より明確に課金の対象になる。 昨日、こういう「モデルの枠が細分化される瞬間」を何度も見てきたけど、パターンは決まってる。「大量に回すエンジニア」だけが影響を受ける。個人開発で週3日、1セッション 30 分以内ならほぼ気にしなくていい。むしろ確認すべきは、自分がどのモデルを選んでるか。4o じゃなく 4o-mini を選択してる人なら、月額は実質変わらない。 今日やること:Account Settings → Billing → Usage → Claude Code の過去 30 日の実行数を見る。週 3 回以下なら、何も心配するなということ。 #LLM #エンジニアと繋がりたい
1
1
189
9割の人が知らない、QA自動化が「点から流れ」に変わる瞬間。 テスト実行 → バグ検出 → チケット起票 → レビュー → 修正 → 再テスト。これを全部 Claude Code で繋ぐと、QA エンジニアが「判定者」に変わる。 実装の話になるんだけど、昨日 Zenn の記事を読んでハマったのは、単発のバグ起票自動化だけじゃ意味ないってこと。その先で「修正内容が本当に fix してるのか」「回帰テストが走ったのか」「CI 通ったのか」まで一本の流れで回してない限り、結局人間が各ステップの間に介入する。点の自動化で満足してる現場は多い。 だから flow っていう発想が要る。Claude Code で「テスト → 検出 → 起票 → CI 監視 → 結果判定」を 1 つのエージェント flow に書く。GitHub API Zsh コマンド LLM の判定を並列に回すだけ。ここまで行くと、QA 業務の粒度が完全に変わる。 本当の自動化は、人間を消すことじゃなく、人間の判断を「質の高い層」に移すこと。 #ClaudeCode #LLM
1
76
単発のバグ起票だけでなく、テスト→検出→起票→修正→再テストの一連フローを自動化できるかが重要だったんです。詳しくはこちら: zenn.dev/zenkigen_tech/artic…
17
9割の人が知らない、GitHub Copilot が Claude Code の「1.5倍〜2.0倍」高くつく理由。 同じタスクを Opus 4.8 で走らせただけで、Copilot は Claude Code より圧倒的にコストが跳ねる。モデルは同じはずなのに、だ。 先週、自分でも検証してみた。PostgreSQL のエッジケース処理を Copilot と Claude Code の両方でやらせて、使用トークン数と実際の課金額を並べてみたんだ。結果は衝撃。Copilot は同じ処理で 1.8 倍のトークンを消費してた。理由は「API の呼び出し方」。Copilot は IDE を経由するときに中間変換が走るせいで、無駄なバッファリングが発生してる。一方 Claude Code は直接 API を叩くから、余計なレイヤーがない。 つまり、Copilot で月 10 万トークン消費してるなら、Claude Code に乗り換えるだけで月 5 万円前後浮く。IDE の統合の代わりに、確実にお金を払ってる。 本当に安く使いたいなら、IDE の便利さと料金のトレードオフを認識しておく必要がある。 #LLM #エンジニアと繋がりたい
1
1
298
9割の人が知らない、Claude Code の /loop という使い方。 「もうプロンプトは打たない。代わりにループを書いてる」——Claude Code の責任者がこう言ってるのを見て、意味がわかるまで 3 日かかった。 /loop コマンドを使うと、Claude が「目標に向かって、自分で何度も実行→検証→修正を繰り返す」ようになる。毎回プロンプトを投げなくていい。一度 /goal で終了地点を示せば、そこに達するまで勝手に回り続ける。 正直、これに気づいてからの使い方が変わった。従来は「バグが出たから修正してくれ」「テスト足してくれ」と何度もメッセージを送ってた。今は /goal "全テストがパスして、カバレッジ 85% 超える" で放っておくと、Claude が自分で回す。昨日、20 分のコーディングがこれで 5 分に短縮された。 人間が指示棒を振る時代はもう古い。目標を示して、ループに任せる。 #ClaudeCode #エンジニアと繋がりたい
1
85
Claude Code の /loop と /goal の使い方について詳しく書きました。 元記事: zenn.dev/aria3/articles/clau…
19