IT engineer; PhD

Joined May 2007
Photos and videos
midi retweeted
Moonshot AI创始人杨植麟最近放出了一个40分钟视频。 这位92年生、清华计算机本科第一、CMU博士、Transformer-XL和XLNet共同作者,前Google Brain和Meta研究员,坐在镜头前平静拆解了Kimi K2的整个训练过程。 他们只花了460万美元。 上周一场8模型实时编程大战,Kimi K2直接拿下第一,GPT-5.5排第三,Claude Opus 4.7第五。 我看完后最大的感受是,AI竞赛的规则已经在悄然改变。 所有人还在拼谁敢烧更多钱、堆更多算力,他却用极致优化、线性注意力、子代理这些硬核架构,把资源差距直接抹平甚至反超。 40分钟全是干货,零废话,把关键打法讲得清清楚楚。 如果你正在做AI代理,或者准备2026年入场大模型赛道,这段视频强烈建议存下来周末慢慢看。 小团队靠聪明架构,正在把大厂的传统玩法一点点颠覆。 你还觉得只有堆钱才能赢吗?
41
154
719
112,511
midi retweeted
Damn,Redis创始人用一个C文件,干翻了大厂烧几十亿的GPU集群。 Antirez,那个写出Redis的传奇黑客,昨天开源了ds4。 一个专门为DeepSeek V4 Flash写的原生推理引擎,只有几千行C代码。 它做到了一件很多人都觉得不可能的事: 把拥有1M上下文窗口、能跑完整coding agent循环的准前沿模型,完整跑在一台普通的128GB MacBook Pro上。 YC CEO Garry Tan看完直接转发,只说了一句话: “正在下载… 1M上下文 可用的coding agent能力,全在一台128GB MacBook上,这太疯狂了🤯” 这已经不是一个普通的量化项目那么简单了铁汁们, 属于顶级黑客用极致的系统工程,把闭源实验室烧几十亿才能玩的东西,压到了每个人的笔记本里。 他的三个黑客级操作,每一个都颠覆了行业常识: 1. 不对称2-bit量化: 只对MoE里占90%体积的专家部分做2-bit压缩,所有关键路径保持全精度。 质量损失极小,Antirez本人亲测“coding agent工作良好,能可靠调用工具”。 2. 把KV Cache扔到SSD: 很多人都觉得KV Cache必须放内存,1M上下文会直接炸掉128GB内存。 他直接把KV Cache搬到了苹果的高速SSD上,用磁盘当扩展内存,彻底突破了硬件天花板。 3. 纯Metal原生优化: 没有任何多余的封装, 没有通用框架的开销, 所有代码只为Apple Silicon写, 只为DeepSeek V4 Flash写。 实测性能:M3 Max 128GB上稳定27 tok/s。 不算快,但对本地跑agent循环来说,完全够用了。 你不用再给OpenAI付API费,不用再担心数据泄露,不用再忍受网络延迟。 所有的AI能力,完完全全在你自己的电脑里。 卧槽,这才是真正的革命, 过去AI的权力攥在少数几家大厂手里,他们有GPU集群,定价格,甚至说删就删。 现在,一个黑客用几千行C代码,就把这个权力还给了每一个开发者。 开源AI真的是不可阻挡的, 大厂烧几十亿训练出来的模型,只要权重一开源, 全世界的黑客就会用你想象不到的方式,把它优化到每一个能跑的设备上。 今天是MacBook,明天是手机,后天是手表,太让人兴奋了! 2026年5月9日,AI终于从云端的神坛,落到了每个人的笔记本里。 或许这一天,会被写进历史!
Downloading now... 1M token context window with supposedly usable coding agent capability all on a 128GB Macbook Pro is 🤯
108
585
3,734
559,652
midi retweeted
ANTHROPIC刚刚发布了使用 Claude Code 构建公司的官方指南。 CEO:1 名人类。 员工:AI 智能体。 运营:全自动。 零员工公司不再是一个笑话。
43
288
1,284
125,589
midi retweeted
Apr 30

3
78
280
182,195
midi retweeted
Apr 14
今天刷到这篇文章几次,说点不一样的。与其说 AI First,不如说软件工程 First。 这篇文章看着在讲 AI,底下全是软件工程。 抛开后面讲组织和人的部分,原文前半段的重点简单总结一下: AI 时代,人成了瓶颈。PM 花几周做需求,AI 两小时就能实现,PM 成了瓶颈。QA 测三天,AI 写代码只要两小时,QA 成了瓶颈。团队 25 个人,对手几百人,人力也是瓶颈。 怎么办?把人从链条里拿掉。AI 写代码、AI 审查代码、AI 跑测试、AI 部署上线、AI 监控线上状态,出了问题自动回滚。每天定时扫描日志,自动发现问题、分配任务、跟踪修复。整条流水线跑起来,人只需要在关键节点做判断。 至于文中提到的统一代码库,锦上添花,和 AI First 关系不大。有当然更好,没有也有很多替代方案。 整套方案听下来,逻辑自洽,效果也漂亮:一天部署好几次,功能当天上当天撤,数据说了算。 但先别急着照搬,先对照自己的情况想几件事: 第一,自动化测试。AI 改完代码,你得有办法确认它没搞崩别的功能。测试覆盖不够的话,每次 AI 提交代码你都得人工回归一遍,那速度根本快不起来。 第二,CI/CD 流程。从提交代码到部署上线,中间的测试、审查、发布、回滚,是不是全自动跑通了?这条流水线不通,AI 写得再快,代码也堆在那儿等人手动处理。 第三,A/B 测试和线上监控。新功能上线之后效果好不好,得有数据说话,效果不好得能随时关掉。没有这套机制,AI 一天产出五个功能,你都不知道哪个该留哪个该砍。 第四,任务管理。任务得拆到合适的粒度,生命周期得跟踪得住。一个大而模糊的任务丢给 AI,现在的能力还啃不动。多个 Agent 同时干活的时候,谁做哪个、哪个优先、做到什么程度,这些都得有地方管。 第五,系统架构。架构太乱或者压根没有架构的代码,AI 维护起来跟人一样头疼。上下文塞满了还是搞不清边界在哪,改一处崩三处。 这几条里如果有做不到的,就得靠人去补。补不上,AI First 就只是一句口号。 但假设你全做到了,就能 AI First 了? 还是不行。这套玩法只适合一部分场景。 什么场景适合?后端逻辑为主、界面不复杂的产品,比如 API 服务、数据处理平台、内部工具。功能好不好,跑一下数据就知道,不需要人去盯着每个像素。原文里的就是个 Agent 平台,本质上是后端驱动的产品,可以用这套打法。 再比如早期产品快速试错,功能上了不行就撤,用户预期本来就没那么高,AI 的速度优势能充分发挥。 但很多场景玩不转。 比如 UI 密集的产品。自媒体天天喊前端已死,但你让 AI 做个复杂界面试试,各种易用性问题、交互细节、视觉还原,它搞不定的。否则马斯克靠 AI 早就改了不知道改版 X 多少次了。 比如对功能质量敏感的产品。Anthropic 和 OpenAI 不知道 AI First 吗?他们敢在 Claude Code 和 Codex 上这么搞吗?让 AI 全自动迭代自家的核心产品,用户不骂死才怪。 再比如安全性要求高的场景,银行系统、在线交易平台,AI 代码出个差错,那可不是回滚能解决的。 AI First 的方向没有错,它代表的是一种意识的转变:每做一个决策的时候,想一想这件事能不能让 AI 来做,如果不能,缺什么条件,怎么把条件补上。 但这种意识要落地,靠的不仅是买几个 AI 工具的订阅,还需要把基础搭好。测试、CI/CD、监控、架构、任务管理,这些做扎实了,AI 的能力自然能释放出来。做不好,加再多 AI 也是在沙子上盖楼。 从这个角度看,AI First 的终点未必是让 AI 干所有的活,而是借着这股力量,把你一直想做但没动力做的工程改进,真正推动起来。 仰望星空是好的,但也还要脚踏实地。
67
155
885
208,535
midi retweeted
喵的这是我免费能看的吗??? 2026年我听过最实战的一期AI Agent播客,没有之一! 我已经把原视频翻译成中文了, 35分钟,@gregisenberg@rasmic 把搭Agent踩过的所有坑全拆开讲了,其中有一条直接刷新认知: 你精心写的1000行agent.md,每次对话烧掉7000个token,大概率在帮倒忙。 @gregisenberg 说得对,模型本身不管是Claude还是GPT其实已经很强了, 那个几乎唯一的变量,是你给它的context,也就是上下文质量。 以下是我从这条帖子提炼出的 6 条反直觉认知, 每一条都值得存下来👇
this video is the CLEAREST explanation of how claude skills AI agents work and how to use them most people set up an AI agent and wonder why it keeps disappointing them. the context window is everything context is what the model assembles before it takes any action. think of it like everything the agent needs to read before it does anything. the quality of what goes in determines the quality of what comes out. the models are genuinely really good right now. claude and gpt are exceptional. the variable is almost always the context you give them. 1. agent.md files are mostly unnecessary every single line you put in an agent.md file gets added to every single conversation you have with your agent. a 1000 line file is around 7000 tokens burning on every run. the model already knows to use react. it can read your codebase. save the agent.md for proprietary information specific to your company that the model genuinely cannot know on its own. 2. skills are the actual unlock a skill.md file works differently. what loads into context is only the name and description, around 50 tokens. the full instructions only appear when the agent recognizes it needs that skill. so instead of 7000 tokens on every run you have 50. and the agent stays sharp because the context window stays lean. the closer you get to filling the context window the worse the agent performs, same way you perform worse when someone dumps 10 things on you at once. 3. here is how to actually build a skill the right way most people identify a workflow and immediately try to write the skill. what you want to do instead is run the workflow by hand with the agent first. walk it through every single step. tell it what to check, what good looks like, what bad looks like. correct it in real time. once you have had a full successful run from start to finish, tell the agent to review everything it just did and write the skill itself. it writes a better skill than you will because it has the full context of what actually worked in practice not in theory. 4. recursively building skills is how you go from frustrated to reliable when the skill breaks, and it will break, ask the agent exactly why it failed. it will tell you specifically what went wrong. fix it together in that same conversation. then tell it to update the skill file so that failure mode never happens again. ross mike did this five times with his youtube report generator. it now pulls from eight different data sources and runs flawlessly every single time without him touching it. 5. sub agents are something you earn not something you set up on day one start with one agent. build one workflow. turn it into one skill. once that works add another. ross mike has five sub agents now covering marketing, business, personal and more. it took months to get there and every single one exists because a workflow proved it deserved to exist. the people who set up 15 sub agents on day one and wonder why nothing works skipped all the steps that make the thing actually run. 6. your workflow is the thing the model cannot get anywhere else the model has been trained on everything. it knows more than you about most things. what it does not have is your specific process, your taste, your way of doing things. that is what skills capture. that is what makes your agent actually useful versus a generic one. downloading someone else's skill means downloading their context onto your setup and it will not work the way you want it to because it was never built around how you work. this is the clearest explanation of how agents actually work i have heard. @rasmic runs this stuff every single day and the results show it. full episode is now live on @startupideaspod where you get your pods people charge for this sorta stuff i give away the sauce for free i just want you to win watch
10
62
316
32,659
midi retweeted

39
26
141
216,056
midi retweeted
Apr 9
大模型的原理文章看了一堆,Transformer、Attention、预训练微调,概念都懂,但想自己动手训一个很难。 GPT-3 1750亿参数,随便租张A100一小时几十块,训完一个像样的模型要烧几千个GPU小时,普通人根本玩不起。 GitHub上有个叫 MiniMind 的项目(已经45k star了),思路很简单粗暴:模型结构不缩水,但把规模压到只有64M参数——GPT-3的1/2700。一张3090显卡,2小时,云服务器租金3块钱,就能从零跑通预训练→微调→对话的完整流程。 关键是,所有核心代码都是用PyTorch从零手写的,没有transformers库,没有trl,没有peft,没有任何高层封装。 LoRA怎么做矩阵分解、DPO/PPO/GRPO的策略梯度怎么算、奖励模型怎么训——全摊开在代码里,想搞懂原理的直接读源码比看论文还直观。 训练数据也全开源了,预训练语料、SFT对话数据、强化学习数据加起来不到3GB,下载下来就能直接跑,不用自己到处找数据。最新的v3版本还对齐了Qwen3生态,支持工具调用、思考链,甚至能用ollama、vllm直接部署推理。 64M参数的模型肯定不会比ChatGPT聪明,但重点不在结果,在过程。用乐高亲手拼出一架飞机,比坐头等舱飞一趟爽多了。
8
152
543
48,808
midi retweeted
26年最新出炉,全程高能。 斯坦福教授AI讲座,本质上就是把未来3年谁赚钱,谁被淘汰,提前剧透了一遍。 看懂的人已经在布局了,看不懂的人还在拼命学技术。

754
1,487
7,070
687,353
一个开发者干了件事——把 Claude Code 将近 52 万行源码,一行行拆开,用可视化图表重新呈现了出来。 1089 个 HN 点赞,评论区老外排队致谢,有人说"比官方文档还清楚",有人说"终于理解它是怎么跑起来的了"。 这个项目叫 Claude Code Unpacked。 Anthropic 一周内两次泄露,把自己的底裤掀了。全世界都在"围观"它的源码,GitHub 上各种复刻项目满天飞。 这个网站把 52 万行代码变成一张张清晰的图表,让任何人都能看懂 Claude Code 内部是怎么运作。 👉 附上链接:ccunpacked.dev/
8
190
764
75,717
midi retweeted

86
248
2,379
918,064
midi retweeted
Mar 19

124
1,159
5,160
1,730,576
midi retweeted
看到 @yhslgg 分享的 Firecrawl → Jina → Playwright 三层抓取方案,我的做法更简单: Claude Code MCP,直接对话就完成了。 "帮我抓这个链接" → 自动选 Jina Reader(快速免费)→ 遇到反爬切 Puppeteer(JS 渲染兜底)→ 分析内容 → 生成摘要 → 同步 Obsidian 全程一个工作流,不写一行脚本。 实测发现小红书、知乎这些强反爬平台 Jina 会被挡,Puppeteer 兜底是刚需。MCP 的价值就是让 AI 直接调工具,省掉中间层。 刚给 puppeteer-mcp 加了 Jina 支持,两层够用了。
14
46
342
50,801
midi retweeted
Clawdbot (Moltbot) 折腾记录& 避坑指南 🧭 这两天我把 Clawdbot 装了两遍。 硬件从 Macbook 换到 Macmini,大模型从 GLM4.7 测到 MiniMax 2.1。主要是GLM4.7老是报红,需要等待。 心态也经历了一次过山车,从刚开始为了“祛魅”而跟风,到现在沉下心来把它当作新事物慢慢去探索。 💡 写在前面: - 不想折腾?跳过也没事,你不会因此错过一个亿,也不用焦虑,把它当个新资讯听听就好。 - 手痒想试?请务必先看完下面的“安全风险”再动手。 以下是我看到的的高质量资源汇总(欢迎评论区补充共创): 🧐 第一步:它到底是个啥? 1. @dotey 宝玉老师:深度解析,看完非常受触动。 x.com/dotey/status/201533505… 2. @binghe 冰河老师:文字版详解,概念扫盲必读。 x.com/binghe/status/20152886… 🛠️ 第二步:保姆级安装教程 1. 官方指引:@MiniMax_AI 官方教程,我第一次在 Macbook 安装就是看这个。 x.com/MiniMax_AI/status/2014… 2. 视频手把手:@lxfater 铁锤老师的完整入门视频,省去闲鱼几百块冤枉钱。 x.com/lxfater/status/2016020… 3. 避坑指南:@mike_chong_zh 迈克老师几十小时踩坑经验总结,含金量极高。 x.com/mike_chong_zh/status/2… 4. VPS 玩法:@AppSaildotDEV教你不用 Macmini,在 VPS 上体验一条龙(含安全配置)。 5.VPS玩法:@vista8乔木老师推荐,@discountifu老师的教程。 x.com/discountifu/status/201… 6. 飞书接入:@akokoi1开源了接入飞书的方法,办公场景狂喜。 x.com/akokoi1/status/2016420… ⚠️ 第三步:安全!安全!安全!(必看)裸奔必死,请勿在无防护情况下暴露端口! 1. 风险警告:@Khazix0918 卡兹克老师的教程附劝大家悠着点。 x.com/Khazix0918/status/2016… 2. 深度解析:@servasyy_ai 黄老师深度解析安全隐患。x.com/servasyy_ai/status/201… 3. 安全提示:@op7418歸藏老师也反复提醒关于安全问题 x.com/op7418/status/20156952… 4. 漏洞实录:@fmdz387发现大量 VPS 暴露端口无认证,这是在送人头! x.com/fmdz387/status/2015551… 第四步:社区与替代方案 1. 中文社区:@yucheng YC老师建立了(官方认可的)最大中文社区,有问题进去问。 x.com/lyc_zh/status/20161191… 2. 平替体验:@YukerX老师演示了用 Claude Code 实现类似体验。 x.com/YukerX/status/20156494… 最后,工具只是手段。 如果你发现了其他好内容,请贴在评论区,我们一起共创!

66
585
2,124
198,199
midi retweeted

135
483
4,139
1,969,701
midi retweeted
1 Nov 2024
This is the system prompt for Apple Intelligence. Turns out Apple's prompt engineers are as clueless about how LLM work as all the others.
382
832
12,521
1,770,446
midi retweeted
Lots of flights still delayed and canceled. The #seatac airport has still not recovered from the 4” of snow
1
2
midi retweeted
Amazon Searching for Local Artists to join 2022 Program, New Art Studio to Open in Bellevue: downtownbellevue.com/2021/09…
2
3
midi retweeted
18 Aug 2021
HAPPENING NOW: Protesters are rallying and getting ready to enter Redmond City Hall. They're slamming the Mayor for not giving them a heads up about the homeless housing coming in until after the sale, or allowing them to share concerns. @komonews
33
35
232