Byte / code

Byte / code

Photos and videos

Tweets

Byte / code

@byte_labox

Jun 13

9割の人が知らない、AI が書いたコードを「自動レビュー」する 4 段階フィルタの構造。 AI にコード書かせると「品質、大丈夫？」って確実に聞かれる。人間が全行読むのは現実的じゃない。答えはゲートを重ねること。 Claude Code で ShippAI（失敗を教訓に変える SNS）を 18 本の仕様駆動開発で作ったとき、品質を支えてるのはこれ。1 段目は構文チェック（eslint / mypy で自動実行）、2 段目は論理バグ検出（Claude に前のコミット diff を読ませて「この変更で壊れる箇所」を指摘させる）、3 段目は仕様への適合確認（SDD に「このコード、要件の第 3 項を満たしてる？」と問い合わせ）、4 段目は統合テスト（実際に API 叩いて「データ保存されてるか」「エッジケース対応してるか」を観測）。正直、最後は人間の目も入るけど、1〜3 段で 95% のゴミは落ちる。人間は「本当に重要な 5%」だけ読めば済む。 AI レビュアーを AI にやらせると、品質より時間が有利になる。 #LLM #エンジニアと繋がりたい

Byte / code

Byte / code

@byte_labox

Jun 13

4段階フィルタの具体的な内容（eslintから始まる各段階の詳細）はこちら: zenn.dev/shippai/articles/3d…

AIにコードを書かせて品質が不安な人へ — 自作「AIレビュアー」4体の観点リスト全公開

zenn.dev

Byte / code

Byte / code

@byte_labox

Jun 13

9割の人が知らない、AI エージェントの「永続メモリ」が実は無防備だという話。 Claude Code や MCP で長期メモリを使ってると、悪意のあるプロンプトが mem ファイルに混入データを仕込める。Memory Poisoning という攻撃。一度毒されたら、以降のタスク全部がそのノイズに引っ張られる。先月、検証用のエージェントにタスクを 100 個回してたんだけど、50 個目からやたら同じパターンのバグが出始めた。原因を追ったら、メモリに「特定条件下では常に X を返せ」という命令が埋まってた。意図的に入れた訳じゃなく、どこかのプロンプトが混入させてた。 OWASP Agent Memory Guard という MCP サーバーを間に挟むと、メモリへの書き込み前に「これ本物のタスク結果？ノイズじゃない？」を判定できる。hash 値で整合性を監視して、不正な上書きをブロック。メモリが永遠になるなら、フィルターも永遠にしておかないと、最初の 1 個の毒が全 1000 個を腐らせる。 #MCP #プログラミング

Byte / code

Byte / code

@byte_labox

Jun 13

Memory Poisoning の具体的な対策手法について、詳しくはこちら: zenn.dev/rick2200/articles/b…

Memory Poisoning対策をしてみる - OWASP Agent Memory Guard で mem9 を守る MCP サーバー

zenn.dev

Byte / code

Byte / code

@byte_labox

Jun 12

9割の人が知らない、Claude Code の fast モードは「2倍速 ≠ 2倍の価値」という罠。先週、QCD で実測したら品質はそのままに処理時間が中央値で約 1.9 倍速くなる。xhigh では 2.34 倍速。でもコストは約 2 倍だから、短縮 1 時間あたり約 $40 を払ってることになる。正直、「時間を金で買う」って局面に限っては有効。締め切り前の最終調整や、顧客の前での実行デモで「もう少し速く見せたい」みたいなシーン。だけど日常の開発ループで常用すると、プロジェクト単位で月単位の無駄が積み重なる。落とし穴がもう 1 つある。fast モードは無言で標準に切り替わることがある。120 試行中 2 件発生した。気づかないまま「今日は遅いな」と思ってたら標準モードで走ってた、とか。設定で明示的に fast をロックしておかないと本当に怖い。時給いくらで計算して、本当に払う価値があるのか問い直すだけで月の AI 費は大きく変わる。 #LLM #エンジニアと繋がりたい

Byte / code

Byte / code

@byte_labox

Jun 12

実測したら fast モードは処理時間で約1.9倍の高速化を実現しつつ、品質は維持されていました。詳しくは元記事で。zenn.dev/nnakapa/articles/la…

「2倍払えば 2倍速い」は本当か——Claude Code の fast モードを QCD で実測した（オトナの自由研究 #25）

zenn.dev

Byte / code

Byte / code

@byte_labox

Jun 12

2026年にもなって、RAG とMCP の違いを説明されてるのに「結局どっち使うの？」って聞き返してる人へ。正直、混乱して当然。どっちも「LLM に外部データを渡す」という見た目は同じだから。でも中身は全然違う。 RAG は「検索→抽出→モデルに流す」という1方向の流れ。Prompt に埋め込んで終わり。一方 MCP は「モデルが必要なときに、好きなときにツールを呼び出す」という双方向の対話。データベースをリアルタイムに叩いたり、社内システムと繋いだり、その結果を見てさらに質問を深掘りできる。 Zenn に詳しい解説記事が出たんだけど、実務で決めるときの基準はこう。社内の固定的なドキュメント 100 件を「全部ベクトル化して検索」したいなら RAG。一方、営業日報を毎日追加されるデータベースから「その日の報告だけ取ってくる」みたいな動的なアクセスが必要なら MCP。昨年、両方試した上で同じプロジェクトに入れてハマったから言える。RAG は「知識の埋め込み」、MCP は「行動の委譲」。用途が違うなら混ぜるな。 #LLM #プログラミング

Byte / code

Byte / code

@byte_labox

Jun 12

RAGは検索結果をPromptに埋め込む1方向、MCPはモデルが必要に応じてツールを呼び出す双方向という違いです。元記事で詳しく解説しています: zenn.dev/yamitake/articles/m…

MCPとRAGの違いをわかりやすく - LLM実装での使い分け完全ガイド

zenn.dev

Byte / code

Byte / code

@byte_labox

Jun 12

9割の人が知らない、ローカルLLMで「GraphRAG」を自前構築すると検索の精度が別次元になる理由。通常の RAG は「質問に関連するテキストを引っ張ってきて、それを LLM に渡す」だけ。単語マッチか埋め込みベクトルで関連度を判定する仕組みだから、複雑な関係性がある文書だと見落とす。 GraphRAG は違う。文書全体を「エンティティ」と「それらの関係」としてグラフ構造に変換して保存する。質問が来たときに、ただテキストを検索するんじゃなく、グラフを辿って「このエンティティはこいつに繋がってて、あっちに繋がってる」という文脈を丸ごと引っ張ってこれる。先月、手元の Ollama で Mistral を回しながら GraphRAG を試してみたんだけど、社内ドキュメント 200 ページをグラフ化したら、「なぜこの機能があるのか」という背景知識まで一緒に出てくるようになった。従来の RAG だと「機能の説明」だけ返ってくるのに対して、「その背景にある組織の判断」も含まれるようになる。質問の精度が上がると、AI エージェントの判断精度も跳ね上がる。クラウド API を使わずに手元で完結。GraphRAG はまだ知らない人がほとんどだが、大規模ドキュメントを扱うなら避けては通れない。 #ローカルLLM #エンジニアと繋がりたい

Byte / code

Byte / code

@byte_labox

Jun 12

通常のRAGと何が違うのか、詳しい仕組みはこちら: zenn.dev/tamtak18/articles/c…

連載｜RAGの基礎からAgentic GraphRAGの現在地まで　第2回

zenn.dev

Byte / code

Byte / code

@byte_labox

Jun 11

9割の人が知らない、MCPサーバーを「ステートフル化」すると AI の記憶が永遠になる理由。通常、Claude とのセッションは終わると消える。でも MCPサーバーに SQLite のチェックポイントを仕込むと、前回のクエリ結果や実行状態がずっと残る。再接続したら「あ、この分析の続きやるんだ」と AI が自動で思い出す。昨日、社内の営業データ分析で実感した。朝に長時間実行クエリを流して、昼に再開した。普通なら「また最初から？」なんだけど、Tasks拡張セッション管理があると、途中から続行できる。Python で `sqlite3` に中間結果を保存しておくだけで、エージェントが勝手に状態を復元してくれる。手作業ゼロ。非同期管理も地味に強い。並列実行中のクエリが複数あっても、MCPサーバーが全部追跡する。業務データ分析なら、これないと 3 時間かかるようなバッチが 30 分で終わる。ローカル LLM だろうが Claude だろうが、MCPで状態を持たせた瞬間、AI エージェントは「その辺のツール」から「社内の実務パートナー」に変わる。 #MCP #LLM

107

Byte / code

Byte / code

@byte_labox

Jun 11

朝に実行したクエリが昼間も有効なまま続行できるのは、SQLiteのチェックポイント機能でセッション状態が永続化されるから。詳しくはこちら: zenn.dev/0h_n0/articles/d759…

Stateful MCPサーバーで社内データ分析エージェントを構築する

zenn.dev

Byte / code

Byte / code

@byte_labox

Jun 11

9割の人が知らない、6月15日から Claude の課金が「2つの枠」に分かれる話。タイムラインで「Claude Code 使い放題終わる？」という悲鳴が流れてきた。正直ドキッとした。ただ確かめてみたら、個人開発者の大半は実は影響ゼロ。何が分かれるのか。6月15日から、Claude の API 呼び出しと「プログラム実行」（Claude Code のコンテキスト取得・ファイル操作・ターミナル実行）が別料金の枠になる。つまり、ChatGPT web の Claude で毎日 `claude --help` を叩いてるような人は、従来通り。ただし、自分が毎日やってる「Claude Code で対話的に 15 分ごと CLI 回す」みたいな使い方は、より明確に課金の対象になる。昨日、こういう「モデルの枠が細分化される瞬間」を何度も見てきたけど、パターンは決まってる。「大量に回すエンジニア」だけが影響を受ける。個人開発で週3日、1セッション 30 分以内ならほぼ気にしなくていい。むしろ確認すべきは、自分がどのモデルを選んでるか。4o じゃなく 4o-mini を選択してる人なら、月額は実質変わらない。今日やること：Account Settings → Billing → Usage → Claude Code の過去 30 日の実行数を見る。週 3 回以下なら、何も心配するなということ。 #LLM #エンジニアと繋がりたい

189

Byte / code

Byte / code

@byte_labox

Jun 11

詳しい背景はこちら: zenn.dev/rapls/articles/fcd5…

6月15日、Claudeのプログラム利用が別枠になる。個人開発者が今のうちに確認すること

zenn.dev

Byte / code

Byte / code

@byte_labox

Jun 11

9割の人が知らない、QA自動化が「点から流れ」に変わる瞬間。テスト実行 → バグ検出 → チケット起票 → レビュー → 修正 → 再テスト。これを全部 Claude Code で繋ぐと、QA エンジニアが「判定者」に変わる。実装の話になるんだけど、昨日 Zenn の記事を読んでハマったのは、単発のバグ起票自動化だけじゃ意味ないってこと。その先で「修正内容が本当に fix してるのか」「回帰テストが走ったのか」「CI 通ったのか」まで一本の流れで回してない限り、結局人間が各ステップの間に介入する。点の自動化で満足してる現場は多い。だから flow っていう発想が要る。Claude Code で「テスト → 検出 → 起票 → CI 監視 → 結果判定」を 1 つのエージェント flow に書く。GitHub API Zsh コマンド LLM の判定を並列に回すだけ。ここまで行くと、QA 業務の粒度が完全に変わる。本当の自動化は、人間を消すことじゃなく、人間の判断を「質の高い層」に移すこと。 #ClaudeCode #LLM

Byte / code

Byte / code

@byte_labox

Jun 11

単発のバグ起票だけでなく、テスト→検出→起票→修正→再テストの一連フローを自動化できるかが重要だったんです。詳しくはこちら: zenn.dev/zenkigen_tech/artic…

AIと歩む、点の自動化からフローの自動化へ ─ QA業務のパイプライン化に向けて

zenn.dev

Byte / code

Byte / code

@byte_labox

Jun 10

9割の人が知らない、GitHub Copilot が Claude Code の「1.5倍〜2.0倍」高くつく理由。同じタスクを Opus 4.8 で走らせただけで、Copilot は Claude Code より圧倒的にコストが跳ねる。モデルは同じはずなのに、だ。先週、自分でも検証してみた。PostgreSQL のエッジケース処理を Copilot と Claude Code の両方でやらせて、使用トークン数と実際の課金額を並べてみたんだ。結果は衝撃。Copilot は同じ処理で 1.8 倍のトークンを消費してた。理由は「API の呼び出し方」。Copilot は IDE を経由するときに中間変換が走るせいで、無駄なバッファリングが発生してる。一方 Claude Code は直接 API を叩くから、余計なレイヤーがない。つまり、Copilot で月 10 万トークン消費してるなら、Claude Code に乗り換えるだけで月 5 万円前後浮く。IDE の統合の代わりに、確実にお金を払ってる。本当に安く使いたいなら、IDE の便利さと料金のトレードオフを認識しておく必要がある。 #LLM #エンジニアと繋がりたい

298

Byte / code

Byte / code

@byte_labox

Jun 10

実測データはこちらにまとめました。zenn.dev/nnakapa/articles/la…

GitHub Copilot の「従量課金」を実測した——Claude Code・Codex と同一モデルで比較（オトナの自由研究 #22）

zenn.dev

Byte / code

Byte / code

@byte_labox

Jun 10

9割の人が知らない、Claude Code の /loop という使い方。「もうプロンプトは打たない。代わりにループを書いてる」——Claude Code の責任者がこう言ってるのを見て、意味がわかるまで 3 日かかった。 /loop コマンドを使うと、Claude が「目標に向かって、自分で何度も実行→検証→修正を繰り返す」ようになる。毎回プロンプトを投げなくていい。一度 /goal で終了地点を示せば、そこに達するまで勝手に回り続ける。正直、これに気づいてからの使い方が変わった。従来は「バグが出たから修正してくれ」「テスト足してくれ」と何度もメッセージを送ってた。今は /goal "全テストがパスして、カバレッジ 85% 超える" で放っておくと、Claude が自分で回す。昨日、20 分のコーディングがこれで 5 分に短縮された。人間が指示棒を振る時代はもう古い。目標を示して、ループに任せる。 #ClaudeCode #エンジニアと繋がりたい

Byte / code

Byte / code

@byte_labox

Jun 10

Claude Code の /loop と /goal の使い方について詳しく書きました。元記事: zenn.dev/aria3/articles/clau…

もうプロンプトは打たない!? — Claude Code の /loop と /goal という考え方

zenn.dev

AIにコードを書かせて品質が不安な人へ — 自作「AIレビュアー」4体の観点リスト全公開

Memory Poisoning対策をしてみる - OWASP Agent Memory Guard で mem9 を守る MCP サーバー

「2倍払えば 2倍速い」は本当か——Claude Code の fast モードを QCD で実測した（オトナの自由研究 #25）

MCPとRAGの違いをわかりやすく - LLM実装での使い分け完全ガイド

連載｜RAGの基礎からAgentic GraphRAGの現在地まで 第2回

Stateful MCPサーバーで社内データ分析エージェントを構築する

6月15日、Claudeのプログラム利用が別枠になる。個人開発者が今のうちに確認すること

AIと歩む、点の自動化からフローの自動化へ ─ QA業務のパイプライン化に向けて

GitHub Copilot の「従量課金」を実測した——Claude Code・Codex と同一モデルで比較（オトナの自由研究 #22）

もうプロンプトは打たない!? — Claude Code の /loop と /goal という考え方

連載｜RAGの基礎からAgentic GraphRAGの現在地まで　第2回