Joined September 2025
239 Photos and videos
Pinned Tweet
如何成为一个牛逼的人: 第一,阅读经典书籍,然后微调自己的大脑 第二,有一技之长,并持续精进 第三,持续输出,构建影响力
1
1
5
183
Ming Hao retweeted
Prompt、Context、Harness 工程全景图 做 LLM Agent 应用时,很多人只关注 Prompt。 但真正稳定、可控、可复现的 AI 应用,通常由三层组成: Prompt Engineering、Context Engineering、Harness Engineering。 它们像三个同心圆: 最内层是 Prompt Engineering,决定模型这一次要“做什么”。 中间层是 Context Engineering,决定模型此刻“知道什么”。 最外层是 Harness Engineering,决定模型“如何可靠地做,并持续变好”。 1. Prompt Engineering:指令层 Prompt 是最内层,也是最直接的一层。 它负责告诉模型: 你是谁? 你要完成什么任务? 你应该按照什么步骤思考? 你要遵守哪些约束? 最终输出成什么格式? 一个好的 Prompt 通常包含几个核心要素: 角色 Persona:定义模型扮演的角色。 目标 Purpose:明确这次任务要达成什么。 流程 Process:告诉模型按照什么步骤完成。 约束 Policy:限制边界、风格、长度、格式。 输出 Presentation:规定输出结构,比如 JSON、表格、Markdown。 自检 Proof:要求模型在输出前检查逻辑和错误。 Prompt Engineering 解决的是单次调用质量问题。 它让模型更容易理解任务,更稳定地输出符合预期的结果。 但 Prompt 有一个明显限制: 它只能影响模型这一次怎么回答,无法保证模型长期拥有正确、完整、实时的信息。 2. Context Engineering:上下文层 Context Engineering 是中间层。 它解决的问题是: 模型在回答之前,应该拿到哪些信息? 在真实产品里,模型不能只靠内置知识回答。它需要结合: 用户输入 历史对话 知识库 文档 网页 数据库 API 工具执行结果 短期记忆和长期记忆 Context Engineering 的核心能力,是把这些信息进行管理: 先检索,再筛选; 先压缩,再排序; 再把最重要的信息注入给模型。 常见流程是: 用户提出问题。 系统从知识库或数据库中检索相关内容。 对结果进行过滤、去重、排序。 把长内容压缩成模型能理解的摘要。 最后将高价值信息放入上下文窗口。 Context Engineering 解决的是信息质量问题。 它让模型少猜测、少幻觉、少遗漏。 如果上下文太少,模型会编。 如果上下文太多,模型会分不清重点。 如果上下文顺序混乱,模型会被无关信息干扰。 如果上下文过期,模型会基于错误事实做判断。 所以,Context Engineering 的关键不是“塞更多信息”,而是“给模型刚好需要的信息”。 3. Harness Engineering:外层系统层 Harness Engineering 是最外层。 它解决的问题是: 如何让 AI 应用可靠运行、持续迭代、可以上线? 这里的 Harness,可以理解为模型外部的工程框架和运行系统。 它包括: Agent Loop 工具调用系统 权限控制 错误处理 日志追踪 Guardrails 自动化测试 评估系统 版本管理 成本控制 部署发布 监控告警 如果说 Prompt 是指令,Context 是信息,那么 Harness 就是执行环境。 一个典型 Agent Loop 包含三步: 第一步:收集上下文。 第二步:采取行动。 第三步:校验结果。 如果结果不满足条件,就继续反馈、修正、重试,直到完成任务或触发停止条件。 Harness Engineering 解决的是可靠性问题。 它让模型输出可以被验证,工具调用可以被追踪,错误可以被恢复,系统可以持续优化。 没有 Harness,AI 应用很容易停留在 Demo 阶段。 有了 Harness,AI 才能进入真实业务流程。 三层之间的关系 这三层不是互相替代的关系,而是逐层增强。 Prompt Engineering 关注单次表达。 它决定模型要做什么。 Context Engineering 关注信息供给。 它决定模型知道什么。 Harness Engineering 关注系统运行。 它决定模型如何可靠地做,并且持续变好。 一个简单的总结是: Prompt 决定任务。 Context 决定知识。 Harness 决定可靠性。 常见错误 很多 AI 应用效果不好,问题通常不在模型本身,而在工程层设计不完整。 常见的 Prompt 错误是: 目标不清楚。 约束不明确。 输出格式不稳定。 只写一句话就期待模型完成复杂任务。 常见的 Context 错误是: 不给背景信息。 检索结果噪声太大。 上下文太长,没有压缩。 关键信息顺序混乱。 记忆机制缺失。 长期知识没有更新。 常见的 Harness 错误是: 没有工具调用闭环。 没有评估机制。 没有日志和可观测性。 没有错误恢复。 没有成本和权限控制。 没有自动化测试。 这些问题都会导致 Agent 看起来“很聪明”,但用起来“不可靠”。 最佳实践 做高质量 LLM Agent 应用,可以按照下面的顺序设计: 先定义目标和约束,再写 Prompt。 先检索相关信息,再放入上下文。 先压缩和排序,再注入模型。 所有输出都要可校验、可追踪、可评估。 用数据和评估结果驱动迭代优化。 衡量一个 Agent 是否成熟,可以看几个指标: 准确率是否提升。 相关性是否提升。 幻觉率是否下降。 任务完成率是否提高。 延迟是否可控。 成本是否可控。 失败是否可以恢复。 一句话总结 Prompt Engineering 让模型听懂任务。 Context Engineering 让模型掌握信息。 Harness Engineering 让模型可靠执行。 真正的 AI 工程能力,不只是写好一句 Prompt,而是把 Prompt、Context、Harness 三层系统化设计好。
3
36
124
11,360
Ming Hao retweeted

1
2
8
1,840
为什么韩国人总喜欢这种发型? 这哥们跟带了假发一样
1
12
Ming Hao retweeted
李新野最新著作:《吃毒鸭腿的清北母狗》 来感受一下雄狮般的语言系统。
411
352
3,480
435,468
2026年真是开眼了! 打工人单杀大老板! 放以前想都不敢想
阿里为了请无招回来,花了一年多。而让他离开,只用了几天 无招去年 3 月回钉钉以来,陈航已经在社交网络引起三轮广泛讨论: 第一次是 2025 年 4 月初。陈航开始猛抓考勤,要求团队早 9 点打卡、开早晚例会、午休 13:14 必须就位,并召集钉钉 P7 级别以上的产品经理一对一约谈,批评公司失去了早期创业的拼搏文化。 第二次是去年 8 月,钉钉即将召开他回归后的首次发布会。陈航在 0 点后巡楼查岗,当场质问 “为什么 11 点就走”,并带 HR 深夜清点工位。 前两次虽然在社交媒体被热烈讨论,阿里内部都没有针对性动作。这一次完全不一样:6 月 4 日,钉钉员工幽素在阿里内网发布 7.5 万字离职长文《置身钉内》,迅速传播;6 天后,阿里合伙人委员会在内网回应,直指钉钉的管理方式 “不是阿里文化该有的样子”,重申 “视人为人、有情有义”“人是阿里最宝贵的财富”。 这是阿里 “合伙人委员会” 首次回应员工。合伙人委员会是阿里的最高决策集体,集团 CTO 吴泽明(花名:范禹)上月刚成为第 5 名成员。 回应发出后不到 24 小时,陈航卸任钉钉 CEO——他成为阿里成立以来罕见的、因管理文化被直接换掉的元老。 陈航在 2014 年创立钉钉。他逢人便推荐,对产品要求极为严苛,快速做大了这款面向企业的社交产品。 他的管理风格一向以 “高压” 著称,招人标准是 “够不够疯狂”。内部创业早期,他经常从早 8 点干到凌晨一两点,全年无休。2018 年,他在员工动员大会上的言论 “不知道你们 10 点前回家做什么” 就曾被外界批评。 但这些批评在当时没那么重要,因为阿里几轮做社交失败后,终于有一个钉钉,在企业办公市场正面赢过企业微信。钉钉也是阿里除电商相关业务外,少数几个从 0 到 1 做成的产品——对一个大集团来说,有人能做出新东西、进入新领域,太难得了。 当时的高压管理,多数员工还能忍受:在上升周期里,产品有结果,结果带来晋升,可以在杭州换更大的房子。当时的大厂员工普遍接受这样的交换。 陈航做了六年钉钉。2020 年阿里推行 “云钉一体” 战略后,他离开阿里创业,创立两氢一氧,做了四五年宠物智能硬件和日本跨境电商平台。2025 年 3 月底,他回归阿里,重新带队钉钉。与陈航一同离开钉钉创业的核心骨干任卿(原钉钉副总裁)、朱鸿(原钉钉首席架构师、CTO)也一起回归。 一位两氢一氧的前员工认为无招是 “被叫回去的”:2025 年 3 月中旬——无招正式宣布回归钉钉的一周多前——他刚在东京下高井户买下一栋房子,打算用作两氢一氧的日本办公室。 回归后的陈航没有变,管理风格变本加厉。 他回归三天后,就有钉钉员工在社交平台发帖:上班时间提前到 9 点,午休缩短半小时,技术员工全员学 Python;工作时间不能打开微信、小红书,也不能私下加微信,对外沟通统一说 “不好意思,我只有钉钉”。 赶上今年初 OpenClaw 走红,钉钉紧急要上线面向企业的 AI Agent 工作平台“悟空”。员工的上班时间进一步拉长:大年初四全员返工,到三月底没有休过一天。 一位钉钉员工告诉我们,陈航回归后要求每个部门开早晚例会。每天早例会 9 点开始,要打开 AI 听记录音,员工要聚在各自业务的进度表大白板前拍照,AI 数人头、按声纹判断几人参会。 晚例会不得早于晚上 9 点开始,同样要录音、拍照。有人实在有事先走,不同部门会互相 “借人” 凑数——系统只数人头,不识别人脸。“我们互相借 ‘人头’ 这件事,无招不知道。” 一位长期与阿里合作的猎头告诉我们,钉钉部分岗位在四五轮面试后,还要求候选人动员二三十位亲友注册钉钉,并完成 “族谱上钉” 的作业——把家族成员拉进钉钉,建立一个 6 人以上的族谱组织,让家人真实使用、给出产品反馈。 员工在试用期还要在钉钉的服务池中选一个低分企业,或拉一个新公司 “上钉”,把服务做到 1000 分以上——而钉钉上 1000 分的满分企业不足 2%。销售岗位还要把一个飞书客户拉来钉钉。 “钉钉要找服从性高、热爱工作且一天能上班十四个小时的员工。” 这位猎头说,他几乎无法招到合适人选。 我们在钉钉上主动联系了陈航,截至发稿,消息一直是 “未读” 状态。 多位与陈航共事多年的同事,以及两氢一氧时期的创业伙伴认为他一心想做成大事,极度看重客户价值。一位陈航过去的下属说他单纯、专注,待人对人真诚——对别人高要求,对自己也是如此。 前几年一位创业者见到陈航,得到的建议是:创业要像爬山,不要抬头看山顶有多远,否则容易畏难,得专注脚下的每一步。 钉钉早年能做起来,是因为产品坚定站在老板视角,上线之初连会议来电都伪装成老板本人来电。陈航的管理方法也是钉钉产品逻辑的体现。 一位曾经的创业伙伴评价陈航:“他知道时代变了,但可能没关注到人也变了,社会也变了。个体价值和追求需要被尊重,关键人才的创造力需要空间。”
2
41
这是我最讨厌的公司! 很早以前,面试完三轮技术面后,周五晚上11点我跟女朋友刚吃完火锅,突然接到HR的电话,直接要面试,整个交谈过程中,态度恶劣到让我本能的想跟她吵架,太傻逼了,一副高高在上的样子。从那以后绝不考虑这家公司。 再后来,遇到了这个公司空降过来的总监,简直开眼了,不到一年时间,团队的人排挤走80%,然后把自己徒子徒孙高薪、高职级带过来。以前都是网上看别人说,亲眼所见才大受震撼。他给我最大的帮助,是让我第一次跟总监拍桌子吵架,锻炼了自己吵架的能力,一周之后,我活水去了其他部门。
《置身钉内》和《置身钉外》我一直没有勇气去看完。 倒不是因为太长懒得看,而是随手一翻就能回忆起当年在阿里的日子。 其实钉钉做得好不好,验证很简单:钉钉整个公司能否实现完全在家办公。如果不行,那协同一定还没做好。 《内》作者结尾提到了“养人型”工作和“耗人型”工作。两个类型的工作我都在前司经历过。 在我离开之前,几乎整个BU都在做着一些“耗人型”工作。在没找到 AI 正确的方向之前,似乎大家都在表演型工作。大量没有实质性意义的项目会议占满了会议室,甚至电梯厅都是人山人海的会议... 高层总是希望大家学习湖畔花园创业的那种状态,而很多中层只是想着如何跑马圈地。一线员工只想着怎样自己的岗位才不会突然被取消。 表演型开会、表演型加班、内耗式竞争、圈地式谈合作...当所有的事情都和内心的期待背道而驰时,心力已经让自己继续坚持下去了。 很多外面的人认为阿里只是996,但阿里人有多少是凌晨两点才能合眼的。开会定 deadline,定的从来不是下班前给,而是闭眼前给。
2
37
Grok也要做coding agent?这个时候会不会太晚了。。。
8
没有任何意义,人家是开小汽车的,普通人是骑自行车的,放到一个赛道也没有可比性
有条件一定要读顶级高中。 北京四中,人大附中,北师大实验,上海中学,复旦附中,深圳中学,成都七中,南京外国语,华师附中,长郡中学,雅礼中学,巴蜀中学,镇海附中。 你以为是因为高考能稳上名校?大错特错,读这些超级中学,你能认识全中国最优秀,背景最好,脑子最好,视野最开阔的同学。 这些人基本就是中国社会的精英基本盘,也就是最宝贵的人脉资源!!!!!
1
14
我喜欢读历史,从上大学的时候就知道了 人中龙凤尚且举步维艰,何况我这样的普通人 这反而让我释怀了,该干啥干啥,不成也是预料之中,成了反而意外之喜
问大家一个问题,你是从什么时候开始意识到自己是一个普通人的?
1
10
Free your mind!
This is a super exciting release - Claude Fable 5 is the same underlying model as Mythos but with added safeguards. The benchmarks are great and it's SOTA on everything by a margin but I'll add that *qualitatively* also, this is a major-version-bump-deserving step change forward (imo of the same order as Claude 4.5 was in November), peaking especially for long problem-solving sessions on very difficult problems. You can give it a lot more ambitious tasks than what you're used to, the model "gets it" and it will just go, and it's never felt this tempting to stop looking at the code at all (but don't do this in prod!). The model still has quirks that people will run into and the safeguards are configured to be a little too trigger happy for launch, which can hopefully be tuned over time. I feel a lot of things changing as working software increasingly comes out on a tap. The Jevon's paradox kicks in and I feel my own demand for software growing substantially. You can ask for anything - explainers, visualizers, dashboards, bespoke single-use apps (e.g. a full wandb that is hyper-specific just for your project), you can 10X your test suite, auto-optimize code, run giant research projects with custom HTML for the results, anything! "Free your mind" (Matrix ref). Really looking forward to all the things people build!
16
有没有人试用Fable 5,效果怎么样?有那么惊艳吗
Introducing Claude Fable 5: a Mythos-class model that we’ve made safe for general use. Its capabilities exceed those of any model we’ve ever made generally available.
12
Ming Hao retweeted
自媒体依旧是当下普通人最好的选择
5
4
29
1,475
Ming Hao retweeted
Jun 9
小道消息:Anthropic 将于今晚发布其最强 AI 模型Mythos...
202
14
330
185,074
claude浪费的那点token不算什么 刷推特才是真的浪费“token”
1
12
都是看书,看啥不是看 反而考证人更直接、高效
Jun 6
图书馆已经失去了原有功能了 十个人里可能只有一个是看书的 剩下的是考研考编考雅思考证人
11
Ming Hao retweeted

6
8
49
20,492
看起来不是本土的,会不会早就“三通一达”了
西安麻辣烫事件女主角发视频骄傲回应:“因为一场和白人的约会,一夜之间我成了中国互联网最火的人…”
38
Ming Hao retweeted
姚顺雨这段话很有价值: 无论是企业还是个人,我觉得越来越重要的事情是Context 因为模型越来越擅长把一个非常复杂的输入变成一个输出,很多时候你的竞争壁垒就来自于你有没有最原始的输入
12
22
251
68,337
有种玩游戏,挂被封了的感觉
1
5
605
claude code 的动态工作流是不是过度设计了,很多任务的时间、token消耗都增加了不少。
55