Indie hacker & AI.

Joined September 2011
453 Photos and videos
Pinned Tweet
继昨天测了一下 GLM-5.1 在 Coding 任务下的表现,今天继续对比测了一下任务理解和处理的能力,利用 agent-browser 完成阿里云轻量服务器续费情况查询(自己的核心使用场景,不代表任何模型的官方测试)。 先说一下结论: 1. GLM 5.1 焕然一新,较短时间内,能重新理解,顺利完成任务,但是结果有些错误。 2. Minimax-m2.7-highspeed 持续许久未能完成任务。 3. Opus 4.6 仍然是王者,稳准狠。 相对来说,GLM-5.1 已经超出我的预期。 这个任务的难点在于,轻量服务器和 ecs 云服务器是两个东西,在阿里云控制台里默认进去看不到轻量服务器列表,这就需要 llm 自己理解并且找到这事儿。 当然,昨晚我也已经帮我老婆把 minimax 切到了 glm-5.1 了。 所以,基于以上这两个测试,我个人重新调整一下国产模型推荐,最新本人推荐 GLM-5.1: bigmodel.cn/glm-coding?ic=DL…

Replying to @fkysly
在我的一个私家找 bug 任务上测试了一下(不代表权威性,只代表我个人),GLM 5.1 好像挺牛逼啊。 花了2分钟就找到了问题;Minimax m2.7 highspeed 花了4分多钟,没找到问题。 之前 Opus 4.6 记录是 30秒;GPT-5.3-Codex 是 10分钟都还在找。
6
2
50
38,787
看不懂了?
As a result of a US government directive, we are suspending access to Claude Fable 5 for all users. You can continue to use all other Claude models. Here’s what this means for you: Across Claude products, new sessions will run on your selected default model or Opus 4.8, and existing Fable 5 sessions will end with an error. On the Claude Platform, requests to Fable 5 will also return an error. Please update your integrations to other Claude models. We know this is a disruption to your workflows; we appreciate your patience and support.
1
867
Fable 我都不敢用,怕把我订阅直接拉满了,但是任务干不完。 有没有富豪老哥已经开始烧 Fable 了?
21
24
15,011
根据 wsj 的报道,OpenAI 正在考虑大幅降低 Tokens 费用,以应对竞争对手 Anthropic 的压力!
3
1
1,992
Anthropic 依然内心极度装逼,计划把 Fable 5 排在订阅计划之外,需要单独收费(6月22号过后)。 希望 OpenAI 发个 GPT-6 教教他们做人 @thsottiaux
38
6
309
76,430
Claude Fable 5 证明了一件事情:Tokens 依然是不够用,算力依然紧张
13
49
15,505
据说今晚任天堂直面会有《塞尔达传说时之笛》重置版压轴,太令人期待了
1
1
599
感谢图大再次组织 WWDC 观影会 @tualatrix 线下交流夯爆了,见到了不少推友老师 @hwwaanng @fkysly @liuyi0922 @KaiyoungYu @istdrc 虽然 Apple 一如既往又拉了,但交了不少新朋友,依旧是一个美好的夜晚!
2
777
其实没搞懂,wwdc 现在开发者内容越来越少了,日常使用的细节反而大书特书
43
10
6,523
今晚 @tualatrix 组织的 WWDC26 杭州线下观影的场地太帅了吧! 这效果,感觉是在苹果会议厅现场了
87
8
125
15,990
从我个人使用 Claude Code 和 Codex 的体验来说,AI 还需要持续发展很久,算力的需求还很大。 目前几个限制: 1. Agent 运行速度受到了 Tokens 算力的约束,当前一步一步慢慢执行的速度,远远没达到那种瞬间执行完毕的效果。 2. 多 Agents 的并行数太少了,目前100多个就已经 Tokens Limit 要扛不住了。1万个、10万个 Agents 并行还远远到不了。 3. 上下文还太小,百万上下文已经不够用了。 从这个个人的体验角度来说,AI 的发展还早的很
27
1
16
4,841
最近我个人的 Tokens 使用量又新高了,达到了 35亿/天的 Claude Opus 4.8 使用量。 主要还是 workflow 会拉非常多个 Agents 并行,最高一次 Claude Code 主动拉了 151 个 Agents 并行工作。
31
11
6,176
推荐一读,如果你还在手工编码的话
Our internal data shows Claude is accelerating AI development—a possible path to recursive self-improvement, or AI autonomously building a more capable successor. It’s happening faster than we thought, and the implications deserve greater attention. anthropic.com/institute/recu…
2
4
1,731
Anthropic:每次我们发布一个模型时,我们都会进行相同的测试:给它一段训练小型 AI 模型的代码,要求新模型加速它。对于一名熟练的人类来说,需要 4-8 小时才能达到 4 倍速度。 2024 年 5 月,Claude Opus 4 的平均加速比约为 3 倍。今年 4 月,Mythos Preview 达到了约 52 倍。 人类在这方面太渺小了
1
6
2,428
所以,Vision Pro 要涨价了?我成了稀有的 Vision Pro 开发者了?
1. The Apple XR headset and smart glasses roadmap I put together about a year ago is no longer a useful reference. For now, only two smart glasses products remain visible in the roadmap. 2. The major overhaul was signed off by Apple's next CEO, John Ternus. This shift actually happened a while back. I'm just late updating the chart. I think removing the Vision Pro line was the right call, as Apple shifts resources toward smart glasses with greater mass-market potential. 3. My latest supply chain checks suggest Apple’s display-equipped AR/XR smart glasses device, powered by optical waveguides, has slipped to 2029. The display-less AI glasses, similar to Ray-Ban Meta, are still expected to ship in 2027.
1
1,309
美国的公司生态真的好啊,干点啥有用就能被收购
VoidZero, the team behind Vite, Vitest, Rolldown, Oxc, and Vite , is joining Cloudflare. Vite stays open source, vendor-agnostic, and built for everyone. cfl.re/3Q1XYSX
6
2,182
Claude Code 的新 workflow 目前我的记录是同时拉了151个 agents
14
3
3,121
下班了但是 tokens 没用完 和 Tokens 用完了但是还没下班。哪个更痛苦?
1
4
1,411
要掀翻羊毛了
1,745
从老黄在台北的演讲来说,现在的 AI 计算中心就好像以前的重工业的工厂一样,只是从生产实物变成了生产算力。人类的发展感觉都是循环
1
744
Claude Code 的 /goal 也没那么靠谱,半夜还是因为上下文达到了90%,从而自助停下来了
2
5
2,260