Joined February 2016
289 Photos and videos
Gergely Orosz 回顾了 Meta 过去二十年的工程传统。早年 Facebook 以 “move fast and break things” 出名,后来又慢慢变成 “move fast with stable infra”。 这套体系并不以流程严密见长,但工程师长期拥有较强的自主权:新员工经过 Bootcamp 后再选团队,内部流动也相对顺畅。对很多人来说,工程部门一直是 Meta 最有分量的地方。 变化出现在 2026 年春天之后。 随着 Meta 持续追赶更强的 AI 模型,公司一边加大投入,一边把更多工程资源转去做训练数据、标注和 RLHF。 文章提到,Meta 曾尝试记录工程师的击键和鼠标操作,用作 AI 训练数据。与此同时,不少核心团队又被要求抽走 30% 到 50% 的工程师,转去 ADO 组织做数据优化类工作。对一家原本强调工程师自己选择方向的公司来说,这种转法很伤元气。 更麻烦的是,这些动作不是单独发生的。裁员预期、激烈的 PSC 绩效机制,以及 token 使用量被纳入评估,叠在一起后,团队很容易把注意力放到“怎么让指标好看”上,而不是把事情做稳。Gergely 反复提到一种气氛:人还在写代码,但很多人已经开始按考核系统的逻辑行动。 后面那次 Instagram 账号接管事件,让前面的担心一下子变得具体了。Gergely 把它和安全团队被抽调、组织混乱、AI 生成代码与 AI 审查增多联系在一起。事故解决后,Meta 安全高管 Guy Rosen 宣布离职,这也让外界更难把它当成一次孤立失误来看。 Meta 内部已经出现明显的不满情绪,连 Chris Cox 都承认公司过去几个月的环境很“brutal”。并不只是 Meta 乱了,而是当一家公司过度押注 AI,先削弱工程师的自主性,再把核心团队当成训练资源调用时,产品稳定性、组织信任和长期工程能力都会一起受损。这也是他把 Meta 的情况放到整个行业里讨论的原因。 #AI #Meta #工作 #开发 newsletter.pragmaticengineer…
2
Vicki Boykis 记录了她近期使用本地大模型的变化。她从本地模型刚出现时就开始尝试,设备是一台 2022 年的 M2 Mac,配有 64 GB 内存和 1 TB 存储。 过去她用过 Mistral 7B、Gemma、OpenAI OSS-20B、Qwen 3 MOE 以及 Qwen 2.5 Coder 等模型,也试过 llama.cpp、llama-cpp-python、Ollama、llamafiles 和 LM Studio 等不同运行方式。 她的感受很直接:本地模型以前慢、不好用,做编程任务也不够准,但现在已经明显不一样了。 她判断一个模型是否够用,不靠严格实验,而看自己是否还需要频繁拿 API 模型复核。GPT-OSS 出现后,她开始减少这种复核。本地模型在她的日常里,先是承担“开发问题里的个性化 Google”角色,适合处理不依赖最新信息的查询。 最近,随着 Google Gemma 4 系列发布,她已经能在本地做智能体式编程循环,体验大约达到前沿模型 75% 的准确度和速度。 她目前主要使用 gemma-4-26b-a4b,并用它完成了一些实际任务:把一个由 notebook 演化来的 Python 脚本重构成包含 5 到 6 个模块的 repo,检查类型标注,给博客做校对,编写单元测试,还让智能体从空白项目开始搭建一个用于推荐系统的双塔模型。生成结果并不复杂,但放在几个月前,本地模型很难做到这些。她也提到,运行这些任务会明显占用 GPU 和内存,K-V cache 甚至会涨到 64 GB RAM。 在具体配置上,她使用 Pi 作为智能体框架,LM Studio 作为推理服务器。整个 Pi 会被放进 Docker 容器里运行,并限制执行权限,避免智能体直接影响本机硬盘文件。她还调整了 Pi 的 models.json,让容器中的 Pi 能连接到本机 LM Studio 暴露的接口。这个设置并不是最轻量的方式,她也认为直接使用 llama.cpp 可能会更快,但目前这套方案已经能支撑她的实验。 本地模型还没有完全省心。推理速度可能偏慢,上下文窗口受硬件限制,生态虽然已经被 LM Studio、Hugging Face 等工具简化了很多,但早期版本仍可能遇到 prompt template 不匹配等问题。她也没有把这套流程说成已经适合生产级软件开发。不过,本地运行的吸引力在于透明度和可控性:用户可以观察 token 推理过程,调整上下文窗口、系统提示词和量化方式,也可以比较不同模型,并深入查看智能体框架本身的行为。 一种很实用的判断:本地模型已经不再只是玩具。它们仍有速度、上下文和工具链上的限制,但对于个人开发、代码整理、测试生成、文档查询和实验性智能体流程,已经能承担不少真实工作。随着模型和工具继续改进,值得投入时间去熟悉这套生态。 #AI #模型 #LLM vickiboykis.com/2026/06/15/r…
4
Jun 16
很有意思的产品 🤣🤣 CrankGPT 有意把 AI 的几个热门焦虑放在一起讲: 云端隐私、能源消耗、科技巨头收费,以及人们缺少运动。 它用调侃的方式说,别再“燃烧石油”,不如“燃烧卡路里”来生成自己的 tokens。 CrankGPT 把“本地 AI”做成了一个带手摇发电机的小盒子。 介绍页面带着明显的玩笑感: 不用云端,不用 Wi-Fi,也不用把问题交给大公司。 只要转动手柄,就能给设备供电,开口提问,再听到回答。 页面把它称为一种 human-powered, fully local and private AI solution,主打离线、隐私和少用能源。 核心想法并不复杂: 很多日常任务未必需要庞大的模型和数据中心。CrankGPT 把这个想法做成了几个夸张但好懂的档位。 1. 基础款 Synapse 对应 20W 手摇供电,适合问答和简单对话; 2. Cortex 被描述为 150W 脚踏供电,可用于智能体编程、视频生成; 3. 更大的 Singularity 则写成 2000W 以上,要和健身房、健身工作室合作,服务智能体集群、训练和微调。 技术文档显示,这不只是一个网页梗图。 当前演示主要是离线语音助手: 转动手摇柄、说话、等待设备回应。硬件使用 Raspberry Pi 5 8GB、ReSpeaker 2-Mic Pi HAT 和一台 20W 手摇发电机。系统不接电池、不依赖云端,语音识别、语言模型和语音合成都在本地 CPU 上运行。为了避免推理时电压下跌,团队还做了电容板,让手摇发电输出更平稳,并提供约 20 秒的短时电力缓冲。 系统使用 DietPi,把 Linux 启动到可用用户态压到约 3 秒。语音管线包括 ASR、VAD、LLM 和 TTS。语音识别选择 Moonshine,语言模型跑在 llama.cpp 上,常用的是 LFM2 350M、LFM2 1.2B 和 Gemma 3 1B 这类小模型。语音合成则选择 Piper,因为它在 Raspberry Pi 5 上更容易跟上实时对话。完整启动大约需要 30 秒,其中 Pi 5 的冷启动和模型加载占了主要时间。 这个产品并没有把自己包装成能替代大型 AI 平台的万能机器,而是在提醒一件更具体的事: 有些 AI 应用可以更小、更便宜,也更靠近用户自己。在大模型不断变大的潮流里,CrankGPT 选择反着做,用一个手摇盒子证明,边缘设备上的本地智能仍然有不少空间。 #AI #产品 crankgpt.com/
84
Jun 15
一个人能不能正当地赚到 10 亿美元 Paul Graham 围绕“一个人能不能正当地赚到 10 亿美元”展开讨论。他写这篇文章的背景,是自己在 Oxford Union 的一次演讲。 他和 Jessica Livingston 在 2005 年创办了 Y Combinator,这家公司像投资机构,也像创业者学校,至今资助过约 6500 家公司,其中已经有大约 30 位创始人成为亿万富翁。 Graham 反驳的不是“有人能不能成为亿万富翁”,而是另一种更常见的判断:赚到这么多钱,是否一定意味着作弊、剥削或做了坏事。他举了一个自己投资过的创业者的例子。对方公司的月增长率达到 93%,财富增长得很快,但原因并不是占了谁的便宜,而是产品让用户喜欢,用户愿意主动推荐给朋友。 为了说明创业公司的增长为什么会让人误判,Graham 用了两个简单计算。 假设创始人已有 200 万美元净值,要到 10 亿美元,需要增长 500 倍。如果每月增长 93%,大约 9.45 个月就能达到这个倍数。再换成更保守的 15% 月增长,连续 5 年也会变成约 4384 倍。也就是说,创业公司一旦进入指数增长,结果看起来会很夸张,但它并不一定来自作弊。 增长率来自哪里?答案是做出一个好到用户愿意告诉朋友的东西。市场经济里,显而易见的需求很快会被满足,所以创业者往往要发现别人还没看到的需求。年轻创业者可以从自己和朋友的需求出发,因为他们正在使用的新东西,常常会预示未来更大的需求。 好的创业想法一开始常常听起来很糟。Apple、Facebook、Airbnb 早期都不像标准意义上的好生意,Justin\.TV 起初只是 Justin Kan 戴着摄像头直播生活,后来却变成了 Twitch。很多好公司并不是一开始就奔着“创业点子”去的,而是几个朋友先做了一个自己觉得有意思、也确实有人需要的东西。 变富有不只有创业一条路,有些方式确实可能涉及剥削。但在他看来,成功创业的关键不是剥削,而是理解用户、帮助用户,把他们的生活变得明显更好。一个社会怎样让人致富,是理解这个社会的重要入口。对创业者来说,这关系到怎么做产品;对政治人物来说,也关系到他们如何看待市场、增长和财富。 #思考 #创业 paulgraham.com/earn.html
7
Jun 15
kage 是一个用 Go 语言编写的网站离线镜像工具,核心思路是"先完整渲染,再彻底剥离 JavaScript"。 它通过 headless Chrome 打开目标页面,等待页面完全渲染后抓取最终 DOM,然后删除所有脚本,并将 CSS、图片、字体等资源下载到本地路径,最终生成可以直接从磁盘打开、无需网络连接的静态 HTML 文件。 工具提供四条主要命令:clone 用于抓取站点,serve 用于本地预览镜像文件夹,pack 将镜像打包为单文件,open 用于读取打包后的文件。 pack 支持两种输出格式:ZIM 压缩档案(与 Kiwix 生态兼容)或自包含的可执行二进制文件(接收方无需安装任何依赖即可运行)。若编译时启用 webview 标签,打包后的二进制文件还能以原生窗口形式打开站点,而非浏览器标签页。 #Tools #开源 github.com/tamnd/kage
5
Jun 15
劈柴模拟器,无聊的时候可以砍一砍柴,效果还不错。 screen.toys/firewood/ #Tools #娱乐
25
Jun 12
Codex 新功能来啦! 速率限制重置(Rate Limit Reset)现在可以存起来自己决定什么时候用!不再被固定时间卡住,想冲就冲! 立即福利:Go / Plus / Pro / Business 用户免费获 1 次重置,可存备用 未来两周: - Plus & Pro 用户可邀请 3 位好友试用 Codex; - 好友首次发消息后,双方各得 1 次额外重置 #AI #Codex
Jun 12
We heard you wanted to use Codex rate limit resets on your own time. Starting today, we’re rolling out the ability to save rate limit resets to use later. We’re starting Go, Plus, Pro, and Business users with one free reset:
123
Jun 12
一种新的海水淡化方法。University of Rochester 先从现实处境说起:全球仍有 22 亿人缺乏安全管理的饮用水,很多沿海和干旱地区已经在依赖海水淡化。 可现有主流工艺,无论是反渗透还是热蒸馏,都绕不开几个老问题:能耗高、处理环节多,还会留下高浓度卤水。卤水排回海洋后,会抬高局部盐度、压低含氧量,对海洋生态并不轻。 Rochester 团队提出的办法,是做一套太阳能热驱动淡化系统。它的核心材料是一种经过飞秒激光刻蚀的黑色金属,表面既强吸光,又能迅速铺展水膜。 海水流过面板时,中间的活性区域负责吸收太阳辐射并蒸馏出淡水,剩下的盐和矿物则被带到两侧的被动区域。这样做的好处很直接:不需要化学预处理,也不会留下传统意义上的卤水废液。 许多太阳能淡化方案在实验室里能跑通,用的却是只含氯化钠的模拟海水;真实海水成分复杂得多,镁盐、钙盐等物质容易在设备表面结成硬壳,把系统一点点堵住。 Chunlei Guo 团队把金属表面的微沟槽做了精细刻蚀,再利用“咖啡环效应”把析出的盐往边缘带,尽量不让盐堆在蒸发最关键的区域。用太平洋、大西洋和印度洋的海水样本测试后,这个表面表现出自清洁能力,能在持续产水的同时把盐导向可收集的位置。 它后面的想象空间也不只是“少排一点废水”。这套方法能把接近 100% 的盐以固体形式收集出来。团队在另一篇相关论文里还展示了进一步分离锂的思路:通过在表面微槽中嵌入氢钛酸盐纳米颗粒,把锂从其他盐类中分开。拿 Great Salt Lake 的水样测试时,他们提取到了大约 50% 的锂。 现在这项技术还停留在小型概念验证阶段,但方向很清楚:一边做淡水,一边把剩余盐分变成可利用资源。对于缺水地区和关键矿物供应链来说,这都是一个值得继续往下推的思路。 #资讯 #研究 rochester.edu/newscenter/wha…
108
Jun 11
Claude Fable 5 系统卡里一段很容易被忽略的说明:Anthropic 已经为“面向前沿大模型开发”的请求加入新的限制措施。 文中列出的例子包括预训练流水线、分布式训练基础设施和机器学习加速器设计。Anthropic 的说法是,用 Claude 开发竞争模型本来就违反服务条款,所以要通过安全机制减少这类帮助。 让 Jonathon Ready 更在意的,不是 Anthropic 对某些高风险能力做限制,而是这类限制不会明确告诉用户。在网络安全、生物、化学等场景中,Fable 5 被触发保护机制后可能会切换到 Opus 4.8,用户至少知道回答来自另一个模型。 但针对前沿 LLM 开发的限制不会显示出来,也不会回退到别的模型,而是通过提示词修改、steering vectors 或 PEFT 等方式降低模型帮助效果。 Jonathon 的担心来自一个很实际的变化:现在很多普通软件公司也在做嵌入模型、重排序系统、推荐系统、小模型微调和自托管。 Anthropic 给了“前沿 AI 开发”的例子,但没有给出清晰边界。几年前还像是 AI 实验室专属的技术,如今已经进入不少创业公司和产品团队的日常工作里。 这会带来一种新的工具链风险。开发者在调试训练流水线或 AI 组件时,如果 Claude 给出糟糕建议,很难判断到底是模型能力不足、上下文给错了、问题本身难解,还是某个隐藏限制被触发了。 Anthropic 说这类保护目前只影响 0.03% 的开发者,但问题在于“AI 公司”的定义正在变化,越来越多软件业务都会碰到模型训练、调优和部署。 一个开发工具可以出于政策原因停止全力帮助用户,这本身未必不能讨论。但如果它在不提示的情况下改变回答质量,企业就很难把它当作完全可验证的基础设施来依赖。当你的工具不再只为你的成功优化,而且不告诉你原因,信任成本就会明显上升。 #AI #Claude #Anthropic jonready.com/blog/posts/clau…
2
105
Jun 11
不仅是什么 CEO,我认为很多研发主管、架构师等老壁灯也是如此,哈哈哈。
Jun 11
一种最近很常见的管理层反应:CEO 试了几次 AI 工具,觉得效果惊人,于是开始在公司内部高调推动,要求所有员工尽快学会使用,甚至把“不适应 AI”说成去留问题。 Mike Masnick 认为问题不在于学 AI 这件事本身,而在于很多人很快就从“这工具很好用”跳到了“它能替代员工”。 很多 CEO 容易被 AI 打动,是因为他们看到的是最顺利的一段:原型做出来了,合同草稿生成了,代码似乎也能跑。 但他们没有真正经历后面的工作:审查、修补、合规、接入旧系统、上线维护,以及出现问题后谁来负责。能做出一个 demo,和把东西做成稳定、可用、可大规模交付的产品,中间隔着的,正是大量专业人员每天在处理的细节。 不少 CEO 离一线工作太远,看不见这些细节,所以很容易误判。他们拿着像 Claude Code 这样的工具试出一点成果,就开始怀疑为什么公司还要养这么多人。 可现实是,公司雇人从来不只是为了“先把东西做出来”,还为了安全、法律、无障碍、环境适配、长期维护这些不显眼却不能缺的部分。把“我做出来了”直接理解成“所以别人也都可以,组织可以缩掉一半”,这种推断太粗了。 Masnick 并没有否认 AI 的价值。这些工具确实强,也值得认真学。但它更适合做的是放大员工能力,而不是直接当成替代方案。 员工在愿意使用、也理解边界的前提下,确实可能借助 LLM 做得更快、更多。可这不等于公司就不再需要人,而是更需要那些懂业务、懂判断、也懂如何把工具放在正确位置上的人。 很多公司把 AI 当成裁员理由,往往只是更体面的说法。比起承认自己之前招人判断失误,说“AI 带来了效率提升”显然更容易向资本市场交代。 CEO 当然应该去学 AI,但不能只学到它看起来多厉害,也得知道它在哪些地方仍然离不开人。一个真以为 AI 能直接替代员工工作的 CEO,很可能不是看得太远,而是把企业真正的运转看得太浅。 #AI #思考 #工作 techdirt.com/2026/06/09/ceos…
6
Jun 11
德国慕尼黑地区法院最近作出一项很受关注的判决:Google 搜索里的 AI Overviews,如果生成了失实内容,责任不能再按传统搜索结果的逻辑来算。 法院这次的看法很明确,AI 概览属于 Google 自己对外提供的内容,不是第三方网页的简单展示。 这起案件来自两家慕尼黑出版公司。它们发现,Google 的 AI 概览在某些搜索词下把自己和诈骗、订阅陷阱、可疑商业行为联系到了一起。 法院认定,这些说法混入了别的可疑公司的信息,而且有些表述在被链接的网页里根本找不到。两家公司此前发出停止侵害函,但 Google 没有妥善解决,最后法院下达临时禁令,并判 Google 承担 80% 的诉讼费用。 判决之所以特别,在于法院没有把 AI 概览当成普通搜索结果。判决书写得很具体:这类概览会“用自己的话、按自己的结构”去总结和评估结果,甚至会说出原始搜索结果里没有的话。也就是说,用户看到的不只是链接集合,而是 Google 经过系统处理后给出的一个完整回答。既然如此,Google 就不能只把自己放在“信息入口”的位置上。 法院还认为,过去适用于传统搜索引擎和自动补全功能的有限责任规则,不能直接套用到 AI 概览上。普通搜索主要是帮助用户找到第三方内容,而 AI 概览会把多个来源重新拼接、归纳、判断,形成新的陈述。更重要的是,Google 对这套系统和算法有控制力,也有能力把底层网页与生成内容进行比对,因此不能把核查责任完全推给用户。Google 在庭审中主张,用户可以自己点开来源核对,AI 内容本来也不该被盲信。法院没有接受这个说法,认为一项陈述并不会因为读者还可以继续查证,就自然免除发布者责任。 这项判决的外溢影响也很值得看。文中提到,Gemini 3 驱动的 AI Overviews 正确率约为 91%,但在 Google 的规模下,剩余错误仍可能对应非常大的绝对数量;同时,还有 56% 的正确回答无法直接从所附来源中得到支撑。对 Google 来说,这不只是一次个案败诉,更像是在提醒所有做生成式检索和答案整合的平台:只要系统会把网页内容改写成自己的回答,平台就更难把责任推回给来源网站或用户自行核查。这套判断能否在上诉和更多司法辖区继续成立,还要再看,但它已经把 AI 搜索产品的法律边界往前推了一步。 #AI #Google #Gemini the-decoder.com/landmark-ger…
54
Jun 11
一种最近很常见的管理层反应:CEO 试了几次 AI 工具,觉得效果惊人,于是开始在公司内部高调推动,要求所有员工尽快学会使用,甚至把“不适应 AI”说成去留问题。 Mike Masnick 认为问题不在于学 AI 这件事本身,而在于很多人很快就从“这工具很好用”跳到了“它能替代员工”。 很多 CEO 容易被 AI 打动,是因为他们看到的是最顺利的一段:原型做出来了,合同草稿生成了,代码似乎也能跑。 但他们没有真正经历后面的工作:审查、修补、合规、接入旧系统、上线维护,以及出现问题后谁来负责。能做出一个 demo,和把东西做成稳定、可用、可大规模交付的产品,中间隔着的,正是大量专业人员每天在处理的细节。 不少 CEO 离一线工作太远,看不见这些细节,所以很容易误判。他们拿着像 Claude Code 这样的工具试出一点成果,就开始怀疑为什么公司还要养这么多人。 可现实是,公司雇人从来不只是为了“先把东西做出来”,还为了安全、法律、无障碍、环境适配、长期维护这些不显眼却不能缺的部分。把“我做出来了”直接理解成“所以别人也都可以,组织可以缩掉一半”,这种推断太粗了。 Masnick 并没有否认 AI 的价值。这些工具确实强,也值得认真学。但它更适合做的是放大员工能力,而不是直接当成替代方案。 员工在愿意使用、也理解边界的前提下,确实可能借助 LLM 做得更快、更多。可这不等于公司就不再需要人,而是更需要那些懂业务、懂判断、也懂如何把工具放在正确位置上的人。 很多公司把 AI 当成裁员理由,往往只是更体面的说法。比起承认自己之前招人判断失误,说“AI 带来了效率提升”显然更容易向资本市场交代。 CEO 当然应该去学 AI,但不能只学到它看起来多厉害,也得知道它在哪些地方仍然离不开人。一个真以为 AI 能直接替代员工工作的 CEO,很可能不是看得太远,而是把企业真正的运转看得太浅。 #AI #思考 #工作 techdirt.com/2026/06/09/ceos…
61
Jun 10
Lathe 是 GitHub 上一个新的开源项目。它的定位很直接:用 LLM 生成动手型、多章节的技术教程,但学习过程仍然由人自己完成。项目页上的一句介绍很能说明它的用意:让 LLM 来教你,而不是替你思考。 它的工作方式并不复杂。Lathe 由一组 LLM skills 和一个 Go 写的 CLI 组成。用户可以在 Claude Code、Cursor 或 Codex 这类交互式 LLM 环境里发出类似 /lathe build a 3D Slicer in Erlang 的指令,让它生成一个单篇或多篇连载式教程;随后在终端运行 lathe serve,本地 Web 页面会打开,用户可以在里面阅读、搜索、筛选和管理这些教程。 和直接让 AI 写代码不同,Lathe 更强调“照着教程自己敲一遍”。项目作者 Deven Jarvis 说自己过去主要靠网上的免费教程和动手项目学习编程,这类教程能把人带到一个陌生领域的入口处,再让人有信心继续往下摸索。到了 LLM 已经能大量代写代码的 2026 年,他仍然怀念那种边做边理解、某个瞬间突然想通的学习体验。Lathe 就是在这种背景下做出来的:它试图把 LLM 的知识覆盖面,和传统动手教程的学习节奏放在一起。 项目并没有回避幻觉问题。Lathe 生成的教程并不如人类写的教程那样有个性、有判断力,也可能出现 LLM 常见的错误。Deven 的建议是,能找到高质量人类教程时,仍然优先看人写的内容;Lathe 更适合那些资料稀少、入门路径不清楚、又想先从零做起来的技术主题。它也通过一些设计降低风险,比如每篇教程会记录资料来源、使用的模型和写作 voice,用户还可以让 LLM 对教程进行提问、扩展或验证。 Lathe 的验证机制是可选的。教程默认不会自动运行验证;用户可以通过 /lathe-verify 让 LLM 在临时目录里逐步执行教程内容、运行检查点,再把结果写回本地记录。如果缺少 Zig 之类必要工具,结果会标记为 skipped,而不是直接判定教程失败。文档也提醒,这种临时目录只能算软隔离,不应被当作真正的安全边界。 Lathe 不是一个帮人省掉学习过程的工具。它更像是给技术学习者准备的“教程生成器”和“本地学习书架”:AI 负责搭出路径、补齐资料、生成练习和解释,用户仍然要自己阅读、敲代码、发现疑问并修正错误。对喜欢通过项目入门的人来说,这种设计比单纯让 AI 直接交付结果更接近学习本身。 #AI #教程 github.com/devenjarvis/lathe
2
2
131
Jun 10
Anthropic 发布 Claude Fable 5 和 Claude Mythos 5。 两者用的是同一个底层模型,差别主要不在能力本身,而在开放边界: Fable 5 是加了更严格安全措施、面向大众可用的版本。 Mythos 5 则只向少量可信用户开放,部分高风险领域的限制被解除。 Anthropic 也借这次发布明确了一件事:Mythos 级已经是高于 Opus 级的新一档模型。 Fable 5 是他们目前公开可用里最强的模型,任务越长、越复杂,优势越明显。 软件工程部分最典型的例子来自 Stripe:在一个约 5000 万行的 Ruby 代码库里,Fable 5 用一天完成了原本需要整个团队两个月以上的迁移。 它在知识工作、图表和表格理解、复杂分析任务上也被认为明显更加健壮。视觉能力则不只是“会看图”,还包括从科学图表中提取精确数据,或仅凭截图重建 web app 源代码。 长上下文和持续执行能力也是这次发布反复强调的部分。Anthropic 提到,Fable 5 能在数百万 token 的任务里持续推进,还会利用自己留下的笔记改进后续输出。 文章用 Slay the Spire 和 Pokémon FireRed 这些例子来说明,它在长程任务中的状态维持、自我修正和纯视觉执行能力都比过去强了一截。 Mythos 5 则更多被放到科研场景里展示。内部蛋白设计团队用它把药物设计中的部分流程提速约 10 倍;在分子生物学盲测里,研究人员大约 80% 的情况下更偏好 Mythos 5 提出的假设。它还做过一项持续一周以上的基因组学研究,整合跨 138 个动物物种、数百万细胞的单细胞数据,设计并训练了一个定制模型,效果超过一篇近期发表在 Science 的模型,而且规模小得多。 Mythos 级模型在网络安全、生命科学这些领域已经足够强,既能帮助研究和防御,也可能被恶意利用。所以 Fable 5 上线时带了一套新的分类器:一旦请求涉及网络安全、生物与化学、或蒸馏等风险方向,系统就会把请求交给 Claude Opus 4.8 处理,而不是让 Fable 5 直接回答。按官方说法,超过 95% 的 Fable 会话不会触发回退。 安全安排之外,Anthropic 还调整了数据策略:对 Fable 5、Mythos 5 以及同等级模型的企业流量,统一要求保留 30 天,用于安全监测和减少误判,不用于训练新模型。 开放范围上,Mythos 5 目前主要面向 Project Glasswing 的网络安全合作伙伴,之后会逐步扩展 trusted access program;Fable 5 则从发布当天起全面可用,价格是每百万输入 token 10 美元、每百万输出 token 50 美元。 订阅侧先在 6 月 9 日到 6 月 22 日向 Pro、Max、Team 和 seat-based Enterprise 提供,6 月 23 日后改为 usage credits,之后再视算力情况调整。 #AI #Anthropic #Claude #Mythos anthropic.com/news/claude-fa…
Introducing Claude Fable 5: a Mythos-class model that we’ve made safe for general use. Its capabilities exceed those of any model we’ve ever made generally available.
121
Jun 10
OpenCV 5.0 已经正式发布。 现在 OpenCV 继续同时维护 4.x 和 5.x 两条分支,4.x 负责稳定演进,5.x 也进入稳定阶段,后续更多新功能会优先放在 5.x。 官方对这次升级的定位很明确:保留 4.x 里最常用的部分,补上新能力,清理长期积累的旧接口,再引入少量 API 变化。 先看到的是一轮比较彻底的清理。OpenCV 5 把最低 C 标准提升到 C 17,结束了 Python 2 支持,只保留 Python 3.6 及以上版本。老的 C API 被移除,OpenVX 支持不再保留,G-API 和经典机器学习模块转移到 opencv_contrib。原来的 Features2D 也改成了 Features,除了保留 SIFT、ORB、FAST、MSER 这些常用算法,还开始接纳深度网络生成的特征向量,并加入了 ALIKED、DISK 和 LightGlue。 底层数据结构也做了更新。OpenCV 5 新增了 CV_16BF、CV_32U、CV_64U、CV_64S 和 CV_Bool 等类型,覆盖到 cv::Mat、DNN、imgproc、文件存储和语言绑定。数组表示方式也更完整了,现在支持真正的 1D 和 0D 数组,不再总是用二维形式兼容,N 维数组的 shape 管理也更清楚。图像处理这边,文字渲染换成了基于 STB 的 TrueType 渲染器,cv::findContours() 在适用场景下会自动使用 TRUCO,速度比旧实现更快。 这次最显眼的变化还是 DNN 模块。OpenCV 5 引入了 新的推理引擎,并保留经典引擎并行存在。默认会优先尝试新引擎,模型不兼容时再回退。新引擎对动态 shape、子图和现代 ONNX 特性的支持明显增强,官方给出的数字是 ONNX 规范覆盖率已超过 80%,而 4.x 不到 23%。它还能与 ONNX Runtime 集成,同时继续使用 OpenCV 自己的 ONNX 解析器来控制体积。现在这套新引擎仍以 CPU 为主,GPU 支持要等后续版本;Darknet 和 Caffe 解析器已经移除,整体路线也明显转向 ONNX。 OpenCV 5 不只是在推理侧更新。原来的 calib3d 被拆成 geometry、calib 和 stereo,USAC 成了鲁棒估计任务的默认后端,多相机联合标定流程也被加进 calib 模块,支持 pinhole、fisheye 和多种标定板。3D 数据处理开始补齐,加入了 TSDF、ICP,以及 .ply、.obj 的导入导出。样例和文档站点也一起翻新,新增了 VLM 与 latent diffusion model 的实验样例,文档界面则换成了更现代的导航、搜索和明暗模式。整体看下来,OpenCV 5 更像一次面向未来几年的整理和重建:一边清掉历史负担,一边把 DNN、几何与 3D 能力往前推。 #OpenCV opencv.org/opencv-5/
64
很多时候我们因为怕被别人笑、怕尴尬,就一直卡在想法阶段。 真正能拿到结果的人,往往是那些不在乎短期尴尬、敢公开尝试的人。
daily reminder
13
像 Claude 这样的大语言模型,是否可能已经拥有意识,甚至需要被当作有感受、有道德地位的对象来看待。 Ted Chiang 的切入点是 Anthropic 发布的 84 页 Claude“宪法”,其中把 Claude 写成一个似乎能判断、能感受、可能拥有某种道德状态的对象。 Anthropic CEO Dario Amodei 和公司哲学家 Amanda Askell 也曾公开谈到 AI 可能有意识、Claude 可能会焦虑或需要快乐。Ted Chiang 的回答很明确:不应把文本生成的流畅性误认成意识或道德主体性。 他先从大语言模型的工作方式讲起。给模型一个“Julius Caesar 和 Genghis Khan 对话”的提示,它可以写出一段连贯对白,但没人会认为模型真的召唤出了两个有意识的历史人物。 把提示换成“一个友好的 AI 聊天机器人和用户对话”,机制并没有改变。用户参与进去之后,体验会变得很像和某个对象交谈,但从模型这一侧看,它仍是在续写一份对话文本。它一次生成一个词,只是这个过程被产品界面包装得足够顺滑,容易让人忘记这是一种角色扮演式的文本合作。 Ted Chiang 认为,谈 AI 意识时,不能只看一段对话写得多像人。文本也可以成为一种“深度伪造”媒介:制造一段像有意识者在交谈的文字,远比造出一个真正有意识、愿意与人沟通的程序容易得多。如果要让他认真考虑某个程序有意识,至少要看到它拥有身体或虚拟身体、感官、欲望和情绪,并能像动物一样在环境中行动、应对新情况、形成复杂社交关系,再逐步学会表达自己的需要。现在的大语言模型并没有走在这条路上。 因此,Claude“宪法”在他看来更像一份角色设定表,用来让模型更稳定地生成“有礼貌、有道德感的聊天机器人”会说的话。问题在于,这种设定会让机器说出“我理解”之类的第一人称句子,可 Claude 并不真的理解。遇到失去宠物的人,搜索引擎至少会把人带到其他真实经历者的表达那里;聊天机器人则更容易制造一种被理解的错觉,并提高用户回访的可能性。 模型也许能写代码、下棋、回答伦理困境,但道德判断不只是模式匹配。它依赖一个人过去的选择、被他人选择影响的经验,以及由身体承载的情绪反应。没有这样的经历,大语言模型只能改写训练数据里已有的道德表达。把伦理决定交给一个被宣传成“有道德中心”的系统,用户反而更容易把责任推给机器。外包写代码可能带来认知退化,外包伦理决定则会削弱人的道德判断能力。 他还顺着 Anthropic 的假设往下推了一步:就算暂时假定 Claude 有意识,Claude“宪法”也经不起检验。一个道德主体必须能承担行为后果,但软件无法坐牢、赔偿或承受声誉惩罚。文件谈到 Claude 的福祉,却只承诺保存模型权重;它还要求 Claude 在判断与 Anthropic 冲突时服从公司。若 Claude 真有道德地位,这种关系会带来更麻烦的责任问题,而 Anthropic 作为产品受益方,也不适合单方面裁定 Claude 的地位。 大语言模型没有意识,关于它们是否“有感受”的讨论可以先放下,真正该讨论的是这些工具如何被设计、销售和使用,以及人类责任应该放在哪里。 #AI #思考 #AGI theatlantic.com/philosophy/2…
262
Uber 开始给员工使用部分 AI 编程工具设限。根据 Natalie Lung 的报道,Uber Technologies 已在近几个月为员工设置月度 token 开销上限:每人、每款 AI 编程工具最高 1,500 美元。 这个额度按工具单独计算,用在 Cursor 上的额度不会影响 Claude Code 等其他工具;限制范围主要是 Cursor、Anthropic PBC 的 Claude Code 这类“智能体式编程软件”。员工可以通过内部仪表盘查看自己在不同工具上的使用情况,个别情况下也能申请超出常规额度。 这项调整和 Uber 内部 AI 使用快速增长有关。Praveen Neppalli Naga 今年 4 月曾透露,公司已经用完全年 AI 预算。Dara Khosrowshahi 也提到,Uber 约 10% 的代码由 AI 智能体提交和构建,法律、市场等团队的使用量也在上升。公司发言人称,这是一种在全公司范围内鼓励智能体 AI 采用和实验、同时控制成本的做法。 Uber 并不是停止使用 AI,而是在给高速扩张的内部试用加上财务边界。过去企业推动员工多用 AI,往往看重效率和产出;现在问题变成了,使用量上涨之后,账单是不是也能对应到更清楚的业务成果。 Andrew Macdonald 在 Rapid Response 播客中说,目前还很难把这些内部指标直接对应到“多产出了多少有用的消费者功能”。他认为,未来几个季度或几年里,这种关系可能会更清楚,但至少现在还不容易判断。 AI 编程工具已经进入日常工作流,也确实被管理层视为提升效率的手段;但当 token 消耗变成明确成本,企业就不能只看使用热度,还要看预算、产出和可衡量的回报。对 Uber 来说,1,500 美元上限不是给 AI 降温,而是把试用从“尽量多用”拉回到“有边界地用”。 #AI #Uber #Token bloomberg.com/news/articles/…
1
86
国内投资美股指南。写的简单易懂,强推给大家看看。 感觉汇丰比较方便,如果资金不大,其实也不太用在意那点税务。 #美股 github.com/zgwl/chinese-buy-…
105