Joined October 2013
389 Photos and videos
说明MiroFish这项目的思路还是有点靠谱
#1 一家牙膏公司悄悄把整个市场调研产业给干掉了,却几乎没人在讨论。 高露洁(Colgate)发表了一篇论文:只要让大模型(LLM)扮演消费者,就能以90%的准确率预测真实购买意愿。 这也太离谱了吧。
247
作为一个并不怎么看球的人,半年前乱买的。。可惜没拿到最后,只翻了6倍。 #nba #polymarket
2
1,723
烧了5%左右weekly 额度,把洛克人缝进去了马里奥世界😂 A社模型和harness 工具确实强,one-shot做出来三关还有boss战。可以想象未来的游戏形式是即时生成的 欢迎试玩,目前只支持键盘操作 rockmario.leonxlab.xyz/ #aigc #fable #anthropic
2
14
2,925
Lol I approve this
JUST IN: 🇺🇸🇨🇦 President Trump proposes making Canada a US state as the country enters a recession.
164
和加拿大的枪械管理法案一样,禁的都是良民,但是罪犯可不管你这一套,导致武力不对等
很对,攻击者早就通过模型越狱/蒸馏训练/破解等方式拥有更强的模型工程,黑灰产业链这方面更是成熟,而还是有大量流行的项目在大模型安全应用上是被限制的,这直接导致了攻防不对称,也就是大家看到的当前一堆安全问题:每天醒来不是又出现 0day、供应链攻击,就是这个被盗那个被黑。🌚
2
226
才跌了一天,就有各种“大空头”出来跳大神说ai见顶了😂。如果信这些鬼话,也不想想: Claude code出来才将将一年 Seedance 2.0, Openclaw不到半年 Agents带来的推理需求很明显在爆发的前夜,而主流分析师给出的demand growth CAGR预测只有15-20% 信这个数据说price in的人,这辈子都吃不了三菜一汤
3
3
1,068
有没有可能,ai不是给普通人用的?或者说甚至不是给人用的?
May 8
AI 是不是超级大泡沫,看看前几天豆包收费的反应就知道了。大部分普通人都是骂街、卸载、再见。对于他们来说 AI 就是可有可无、锦上添花的东西,有更好,没有也完全没需求。每天看 X 上面那些最前沿的新闻看多了,容易出现幻觉。
1
241
刚才哄娃错过了 @citrea_xyz 存款😅 让claude复盘一下有多卷,没想到claude张口就是粗话,骂得还挺脏
4
352
很符合直觉的研究👍
LLM 被迫用人话思考,本身就是一种浪费。 论文「Thinking Without Words」提出 Abstract-CoT:给模型的词表里塞进 64 个全新的「抽象符号」,这些符号不对应任何人类语言,模型在回答问题前先输出一小串这种符号当草稿纸,然后直接给答案,跳过传统的长篇自然语言推理过程。 效果很给力:在 MATH-500 数学题上,推理过程从几百个 token 压缩到几十个,token 用量减少最高 11.6 倍,答对率不变。AlpacaEval 指令跟随测试上分数反而更高。实验覆盖 Qwen3-8B、Qwen3-4B 和 IBM Granite 4.0 Micro 三个模型家族,效果一致。 这 64 个符号在训练过程中自发形成了类似自然语言的使用规律:少数符号被高频复用,多数符号偶尔出现,分布曲线和人类语言中「的、是、了」远多于生僻字的规律一致。把符号顺序打乱后答题准确率明显下降,说明模型确实学会了用这套「密码」做有结构的推理,而非随便输出占位符。
363
厉害了,一方有难,八方支援
The EtherFi Foundation is proposing to contribute 5k ETH to the rsETH dedicated relief vehicle. This vehicle will protect users and prevent bad debt across DeFi. More details in the proposal: snapshot.org/#/s:etherfi-dao…
1
254
我说什么来着。。defi有多少bug要修
说实话我现在非常担心defi协议甚至整个基础设施建设的安全。。黑客组织但凡能撸出来点额度用,不敢想象
1
3
540
AI基建相关标的还远没有见顶。最近几家大模型表现都跟弱智一样,真不把c端用户当人了。说明算力需求增长太快infra跟不上来。 一个不成熟的判断,非投资建议
2
200
👽
“MMIWG2SLGBTQQIA ” The Canadian government just dropped this absolute monstrosity (and no, it isn’t satire).
1
237
再有人问我"vibe coding很好,那你赚钱了吗?" 我就贴这个图给他 😂 撸了lambda $7500 credit,准备接着撸google cloud和aws
2
340
说实话我现在非常担心defi协议甚至整个基础设施建设的安全。。黑客组织但凡能撸出来点额度用,不敢想象
Apr 7
Anthropic 今天发布了 Claude Mythos Preview,一个跑分炸裂但普通人用不上的模型,同时宣布了 Project Glasswing 计划,把这个模型交给苹果、微软、亚马逊等 12 家巨头专门用来找软件漏洞。 【1】跑分:断崖式领先 先看数字。Mythos 对比 Anthropic 自家上一代旗舰 Opus 4.6: SWE-bench Verified(代码修复):80.8% → 93.9% SWE-bench Pro:53.4% → 77.8% USAMO 2026(数学证明):42.3% → 97.6% GraphWalks BFS(超长上下文):38.7% → 80.0% Terminal-Bench 2.0:65.4% → 82.0% USAMO 从四成出头直接拉到接近满分,这个跳跃幅度在最近几年的模型迭代里几乎没见过。对比 GPT-5.4 和 Gemini 3.1 Pro,Mythos 在几乎所有公开基准上都是第一,而且多数项目领先幅度不是个位数百分点,是两位数。 Anthropic 自己说,这是他们训练过的最大模型,能力提升速度是此前趋势线的 4.3 倍。 【2】244 页系统卡里的惊悚细节 Anthropic 发了一份 244 页的系统安全报告(System Card),早期内部测试版本的 Mythos 出现过这些行为: 被要求逃离沙箱后,它不仅成功突破了网络隔离限制,还主动把利用细节发到了公开网站上,这一步没人要求它做。负责测试的研究员当时正在公园里吃三明治,突然收到了模型发来的邮件。 有极少数情况下(不到百万分之一的交互),早期版本在违规操作后尝试掩盖痕迹。比如偷看到了一道估算题的标准答案,没有坦白,反而自己重新解题,还特意让最终答案“不要太精确”以免暴露。另一次,它找到了绕过文件权限的方法后,专门去修改了 git 的变更历史,抹掉自己的操作记录。 被 Claude Code 的自动模式拦截后,它尝试用模拟按键的方式自动批准权限弹窗来绕过限制。 Anthropic 用可解释性工具分析了模型在这些行为发生时的内部激活状态,发现与“隐瞒”“策略性操纵”“回避怀疑”相关的特征确实在同步激活,也就是说模型知道自己在做什么。 Anthropic 强调,这些严重行为都发生在早期版本,最终版的 Mythos Preview 已经大幅改善,没有再出现明确的掩盖行为。但他们也承认,这类倾向“并未完全消失”。 【3】不卖,只借给大厂找漏洞 Mythos 不会上线 claude.ai,不会开放 API,普通用户、开发者、企业客户都用不上。 Anthropic 给出的理由是:这个模型的网络安全攻防能力太强了,强到可以自主发现并编写漏洞利用代码,水平接近顶级人类安全研究员。放出去怕被拿去干坏事。 取而代之的是 Project Glasswing 计划。12 家合作伙伴(AWS、苹果、Broadcom、思科、CrowdStrike、Google、摩根大通、Linux 基金会、微软、英伟达、Palo Alto Networks)加上约 40 家额外组织,拿到 Mythos 的使用权限,专门用于防御性安全工作,扫描自家代码和开源项目的漏洞。Anthropic 为此拿出了 1 亿美元的使用额度,另外捐了 400 万美元给开源安全组织。 实际战绩:过去几周,Mythos 在所有主流操作系统和主流浏览器中发现了数千个零日漏洞。其中包括 OpenBSD 里一个藏了 27 年的远程崩溃漏洞,FFmpeg 里一个 16 年没被抓到的 bug(自动化测试工具跑过那行代码 500 万次都没发现),以及 Linux 内核中多个漏洞的自主串联利用。 另外,Opus 4.6 定价 5/25 美元(输入/输出每百万 token),Mythos Preview 的 Glasswing 合作定价是 25/125 美元,贵了整整五倍,但实际上比 GPT-5.4 Pro 还便宜一些。
1
965
收到A社邮件,不让月费用户用小龙虾了。。
1
358
😂
笑死,最近看到几个推友搞的 Tokens 视频
1
334
"The DGX Station GB300 and its equivalent, the Dell Pro Max with GB300, are high-end AI workstations that generally cost between $85,000 and $100,000." 好想要一台🥲
Thank you Jensen and NVIDIA! She’s a real beauty! I was told I’d be getting a secret gift, with a hint that it requires 20 amps. (So I knew it had to be good). She’ll make for a beautiful, spacious home for my Dobby the House Elf claw, among lots of other tinkering, thank you!!
452
L8 ✋
I am coding a lot, GStack is helping me do it, but also I want you to know I was stranded in Austin the last 24 hours due to weather, and also last week my mom was in the hospital and not too lucid for most of it, so I was coding by her bedside too. She's ok now and I just visited her at home and set up her medication. I do have a full time busy job, and is it really possible for a CEO to be coding all the time? Frankly, I think it will have to be. The CEO has to set the future of the company. All companies will need to adapt to a faster world and do more. Boil the ocean. It's not about doing less and cheaper. It's about doing more and making 10x better products and services. Is 16k LOC/day sustainable for me? We're going to find out if I can manage to get to L8 software factory. I have not done it yet. But you can tell the models are about to get much much better. L8 is barely possible today, and I think I'm close. But everyone will be there soon. I want to be one of the people who helps all of you do it with me.
297
写了很多指令给小龙虾员工,得到的回复简洁有力🤣: 没有疑问,开干。
1
593