Filter
Exclude
Time range
-
Near
VIONIC powered by INTELLO brings advanced electrochemistry into a single, compact platform designed for precision and flexibility. metrohm.com/en_gb/products/e… #electrochemistry #vionic #autolab #impedancespectroscopy #analyticalchemistry #batteries #sensors #corrosion
1
열공이답 .grvt🍀Solstice✨ retweeted
[ Ritual 인프라의 가성비를 극대화하라! 제한된 온체인 비용 안에서 스스로 진화하는 Ritual형 AI 연구소, AutoLab ] @ritualnet @ritualfnd @ritualnet_korea @joshsimenhoff @mongdiny7 두 번째 소식은 단순한 단답형 코딩을 넘어, 리추얼 같은 탈중앙화 인프라 환경에서 제한된 가스비와 연산 자원을 쥐어짜며 스스로 시스템을 최적화하는 실전형 자율성에 대한 이야기예요! 리추얼 디제스트가 왜 이 연구에 이토록 격하게 주목했는지 본문을 보면 정말 무릎을 탁 치게 되실 거에요!!! 사실 요즘 프론티어 모델들은 단순 벤치마크 점수도 높고 말도 참 잘하잖아요? 하지만 리추얼 생태계처럼 묵직한 온체인 연산이나 복잡한 웹3 프로젝트를 던져주면 정작 맥을 못 추곤 했어요. 진짜 인간 연구원처럼 시스템의 병목을 분석하고, 스스로 개선점을 찾아서 연산 효율을 극대화하는 실전형 지능을 측정하기 어려웠기 때문이죠. 그래서 연구진은 AI에게 진짜 실전 연구의 매운맛을 보여주는 AutoLab이라는 무시무시한 테스트베드를 만들었답니다! 여기서는 시스템 구축, 모델 개발, 고난도 커널 작성 같은 최고 난이도의 전문가 작업 36개가 주어지는데, 이는 마치 리추얼 네트워크 위에서 우리 빌더들이 실제로 마주하는 하드웨어 최적화 미션들과 똑 닮아있어요. 특히 AutoLab의 규칙은 리추얼의 노드 운영 방식만큼이나 현실적이고 시사하는 바가 아주 커요! AI에게 처음에는 겨우겨우 돌아만 가는 비효율적이고 서툰 베이스라인 코드를 쥐여준 뒤, 네트워크에 무리를 주지 않는 제한된 연산 비용 안에서 이 시스템의 성능을 최대한 업그레이드하라는 미션을 던지거든요. 이 미션을 통과하려면 AI가 단순히 코드를 잘 짜는 걸 넘어, 현재 시스템의 어떤 구간에서 가스비나 연산 오버헤드가 터졌는지 스스로 분석하고, 실험을 설계하고, 그 결과를 바탕으로 코드를 직접 뜯어고치는 고도의 자율적 루프를 돌아야만 해요. AI가 인간 빌더의 도움 없이도 리추얼 인프라 위에서 스스로 프로토콜을 빌딩하고 최적화할 수 있는지 시험하는 완벽한 잣대인 셈입니다! 앞으로 리추얼 네트워크 위에서는 수많은 AI 에이전트들이 인간의 개입 없이 스스로 연산을 수행하고 네트워크를 발전시키게 될 텐데요, 이때 가장 중요한 게 바로 탈중앙화 연산 인프라의 가성비와 효율성이에요. 가스비와 컴퓨팅 파워는 결국 전부 비용이니까요 ㅎㅎ 결과적으로 AutoLab 같은 환경에서 단련된 영리한 에이전트들이 리추얼의 인프라와 결합한다면, 네트워크에 참여하는 노드와 스마트 컨트랙트를 AI가 스스로 모니터링하고 제한된 비용 안에서 실시간으로 최적화하는 진정한 자율형 웹3 네트워크가 가능해집니다. 무작정 덩치만 큰 AI가 아니라, 리추얼 인프라의 한정된 자원을 가장 가성비 있고 똑똑하게 써먹을 줄 아는 찐 빌더 에이전트들을 키워낼 초석이 되는 연구가 바로 이 AutoLab이랍니다!
오늘은 얀을님이 주최하시는 가라오케가 있는날!!! 항상 좋은노래 들려주시는 얀을님 감사합니다!!!!❤️❤️ 한국방 최고!!!! @ritualnet @ritualfnd @ritualnet_korea @joshsimenhoff @mongdiny7
5
1
8
60
What if the biggest problem with frontier model evaluation is the benchmark itself? Too many benchmarks reduce the frontier model to narrow SWE-style tasks. AutoLab Benchmark is designed to be broader: real-world engineering research environments, long-horizon execution, and human expert solutions as reference baselines. Because evaluating real models should look more like evaluating real work. #autolab #benchmark
2
4
30
2,223
Day 100th AutoLab is a reality check for AI research. 36 expert-level challenges across systems and kernels starting from working baselines and demanding real improvement under budget. 💡 The future of autonomous R&D is being measured, not imagined. 🔬 @ritualnet
Day 99th Success isn’t written in the first draft it’s forged through persistence. learning from every feedback loop. The winners aren’t always the smartest; they’re the ones who keep improving. ⏳✨ 🏆 Claude Opus 4.6 leads the way: Avg@3 0.68 | Best@3 0.76 📈🔥 @ritualnet
32
I’m concerned about bio weapons and it’s always been that. A terrorist in a cave with an autolab vibe coding death
20
Josh Cason retweeted
We put out a blog version of AutoLab in March. Today, I am excited to share that our full paper is out! 📖 AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks? Since then it's been great to see work in the field building on what we shared, that's a big part of why we went back and did the complete version, with the full experiments. The question is simple: can a model stay with a hard problem for hours? 36 environments, each a real program that works, but not optimized. The model gets the code, a sandbox, up to 12 hours, and a sealed scorer -- the only way to a better number is better code. We ran 17 frontier models. 2,544 hours, 8.6 billion tokens. The finding from the blog held up: the strong models weren't the ones with the best first attempt -- they were the ones that kept closing the loop: test, change, test again! Persistence alone wasn't enough. Some models ground on for hours but barely ran the code, and the clock ran out on them. Others gave up with hours left. We built this benchmark; it might not capture everything. But we hope it fills in a piece of the picture that one-shot scores miss, especially for anyone building agents to do hours of real work! If you've been building on the blog version, we'd love to see what you found. And if you try your models on it, tell us what breaks. #AutoLabBench
1
11
32
2,716
After reading this week's Ritual Research Digest, one thing became clear: The future of AI agents won't be defined by the best first response. GrepSeek showed that agents can move beyond traditional RAG by treating the corpus itself as the environment, searching, filtering, and interacting directly with data instead of relying on the same retrieval interface every time. TELBench and DRIFT reminded us that reliability isn't just about whether the final answer is correct. What matters is understanding where reasoning first goes wrong and how unsupported claims spread through an agent's trajectory. AutoLab found that persistence beats first-shot brilliance. The agents that kept benchmarking, editing, testing, and incorporating feedback achieved the best results. Terminal-Lego challenged another common belief: the strongest agents aren't always the best teachers. The most valuable trajectories are the ones that expose an inspect → act → verify loop that others can learn from. The takeaway? The next generation of AI agents won't just be more capable. They'll be more persistent, auditable, and grounded in process. For Crypto × AI, that's a powerful direction: systems built not only to produce answers, but to show their reasoning, learn from feedback, and earn trust over time. Worth the read if you're paying attention to where agentic AI is heading.🕯️ @ritualfnd @joshsimenhoff @Jez_Cryptoz
Here’s this week’s Ritual Research Digest, a newsletter covering the latest in the world of LLMs and the intersection of Crypto x AI. With hundreds of papers published weekly, staying current with the latest is impossible. We do the reading so you don’t have to.
18
1
50
685
🇳🇱 Great two days at Metrohm Autolab HQ! Ready to support UK & Ireland customers with even deeper electrochemistry expertise. ⚡🔋
1
58