Shane

Shane

Users
Tweets

Shane

@ShaneRobinett

23h

Hardware stack for this test machine - CPU: Intel Core Ultra 9 285K (Arrow Lake-S) — 24 cores / 24 threads - RAM: 244 GiB - GPUs: 2× Intel Arc Pro B70 (Battlemage / Xe2) - Each: 32 GB GDDR6 ECC - Bandwidth: 608 GB/s per card - Total VRAM: 64 GB - Storage: 3.9 TB NVMe SSD - OS: Ubuntu 26.04 LTS (kernel 7.0.0-22-generic) - PSU: Dell 1500W Platinum Current Software Stack (relevant to LLMs) - oneAPI (SYCL / Level Zero) - llama.cpp (SYCL build with GGML_SYCL=ON) - vLLM (Intel LLM Scaler images — currently unstable on dual B70)

Mike Gannotti

Mike Gannotti

@MichaelGannotti

Jun 12

x.com/i/article/206543606328…

118

Global Stock Flash

Global Stock Flash

@globalstockflsh

Jun 12

KI-Begriffe einfach erklärt — Teil 17: CUDA & der Software-Stack Wir haben über Chefköche gesprochen, über Hilfskräfte, über Kühlsysteme und Stromversorgung. Aber heute kommen wir zu NVIDIAs $NVDA eigentlichem Geheimnis. Nicht der Chip, sondern das Kochbuch. Stell dir vor, deine 1.000 Hilfskräfte (GPUs) sprechen alle eine andere Sprache. Einer spricht Deutsch. Eine andere Japanisch. Ein dritter Swahili. Sie sind alle talentiert — aber sie können nicht zusammenarbeiten. Kein gemeinsames Rezept. Kein gemeinsames Verständnis. Die Küche steht still. NVIDIA hat dieses Problem 2006 gelöst — mit einer einzigen gemeinsamen Sprache für alle Hilfskräfte. Diese Sprache heisst CUDA. Was CUDA ist: CUDA steht für Compute Unified Device Architecture — eine Programmierplattform die Entwickler nutzen um GPUs für allgemeine Berechnungen zu programmieren. Vor CUDA konnten GPUs nur eines: Grafiken rendern. Sie waren brillante Hilfskräfte — aber nur für einen einzigen Job ausgebildet. Mit CUDA konnten Entwickler plötzlich die gesamte Rechenleistung der GPU für beliebige Aufgaben nutzen — Physikberechnungen, Wettervorhersagen, Finanzmodelle, und schliesslich: KI. CUDA ist das Kochbuch das alle 1.000 Hilfskräfte gleichzeitig verstehen. Und seit fast 20 Jahren wurde dieses Kochbuch verfeinert, erweitert und optimiert. Warum das NVIDIAs grösster Burggraben ist: Heute gibt es Millionen von Entwicklern weltweit die CUDA beherrschen. Jede KI-Bibliothek — PyTorch, TensorFlow, JAX — ist auf CUDA optimiert. Jedes KI-Modell das trainiert wird läuft auf CUDA. Jedes Unternehmen das KI entwickelt hat seine gesamte Infrastruktur auf CUDA aufgebaut. Das ist kein technischer Vorteil — das ist ein riesiger ökonomischer Graben. Stell dir vor, du willst deine Küche auf einen anderen Hersteller umstellen. Nicht nur die Geräte tauschen — sondern alle 1.000 Hilfskräfte müssen eine neue Sprache lernen. Alle Rezepte müssen neu geschrieben werden. Alle Abläufe neu eingerichtet. Das kostet Jahre und Milliarden. Genau deshalb scheitern AMD, Intel und alle anderen bisher daran NVIDIA wirklich herauszufordern — obwohl ihre Hardware teilweise gleichwertig ist. Der Chip ist das Gerät. CUDA ist das Wissen. Und Wissen ist schwerer zu ersetzen als Geräte. Der komplette Software-Stack: CUDA ist nur die Basis. Darüberhinaus hat NVIDIA ein ganzes Ökosystem gebaut — wie eine vollständige Küchenausstattung statt nur ein einzelnes Messer: 📖 cuDNN — optimierte Bibliothek speziell für neuronale Netzwerke. Macht KI-Berechnungen auf NVIDIA-Chips drastisch schneller. 📖 TensorRT — optimiert fertige KI-Modelle für schnelle Inference. Wie ein Rezept das speziell für den schnellen Mittagsbetrieb vereinfacht wurde. 📖 NeMo & Triton — Frameworks speziell für grosse Sprachmodelle und KI-Deployment. 📖 RAPIDS — Datenverarbeitung direkt auf der GPU, ohne Umweg über die CPU. Jede dieser Bibliotheken läuft nur optimal auf NVIDIA-Hardware. Wer wechseln will — verliert nicht nur die Hardware, sondern das gesamte optimierte Ökosystem. Die Herausforderer: Die Industrie versucht seit Jahren aus dieser Abhängigkeit auszubrechen: 🔵 ROCm ($AMD ) — AMDs offene Alternative zu CUDA. Technisch solide — aber noch weit hinter CUDA beim Entwickler-Ökosystem und der Optimierungstiefe. 🔵 oneAPI (Intel $INTC ) — Intels Versuch einer einheitlichen Programmierplattform für alle Chip-Typen. Interessant — noch nicht weit verbreitet. 🔵 OpenXLA & JAX (Google $GOOG ) — offen, flexibel, wachsendes Ökosystem. Google nutzt es intern intensiv für TPUs. 🔵 Triton (OpenAI) — open-source Compiler der CUDA-unabhängiges Programmieren auf verschiedenen Chips ermöglicht. Einer der interessantesten Ansätze — weil er den Lock-in strukturell angreift. NVIDIA hat etwas verstanden das die meisten Hardware-Unternehmen nie begriffen haben: Der Chip ist das Produkt. Aber die Software ist die Macht. Microsoft kontrolliert den Desktop nicht weil Windows die beste Software ist — sondern weil alle Programme für Windows geschrieben wurden. NVIDIA kontrolliert KI nicht weil der H100 der beste Chip ist — sondern weil alle KI-Modelle für CUDA geschrieben wurden. In unserer Küchenmetapher: Es ist nicht der Herd der den Unterschied macht. Es ist das Kochbuch das alle kennen, alle nutzen, und das niemand so schnell vergisst.

Global Stock Flash

@globalstockflsh

Jun 7

KI-Begriffe einfach erklärt — Teil 16: TSMC & Chipfertigung Wir kennen unsere Küche inzwischen in- und auswendig. Aber heute stellen wir eine Frage die eigentlich am Anfang stehen müsste: Woher kommen die ganzen Geräte? Wer baut die Herde, die Kühlschränke, die präzisen Messinstrumente? Die Antwort ist verblüffend: Fast alle kommen von einem einzigen Hersteller. Stell dir vor, alle Spitzenrestaurants der Welt beziehen ihre Küchengeräte von genau einem einzigen Lieferanten. Nicht weil es keine anderen gibt. Sondern weil nur dieser eine Lieferant die Präzision beherrscht die Spitzenküchen brauchen. Seine Messer sind schärfer, seine Herde präziser, seine Waagen genauer — um Grössenordnungen besser als alles andere auf dem Markt. Genau das ist TSMC — Taiwan Semiconductor Manufacturing Company. TSMC ist eine sogenannte Foundry — eine Auftragsfabrik. Sie entwirft keine eigenen Chips. Sie baut die Chips die andere entwerfen. NVIDIA entwirft den GPU. AMD entwirft den Prozessor. Apple entwirft den M-Chip. Aber keiner von ihnen baut ihn selbst. Sie alle schicken ihre Blaupausen nach Taiwan — und TSMC fertigt. TSMC produziert über 90% aller weltweiten High-End-Chips. Jeder NVIDIA-GPU der KI antreibt. Jeder Apple-Chip in deinem iPhone. Jeden AMD-Prozessor. Jeden Qualcomm-Chip in deinem Android-Telefon. Warum ist der Markt so konzentriert? Chipfertigung auf höchstem Niveau ist das Schwierigste was die Menschheit je industriell umgesetzt hat. Eine moderne Chipfabrik kostet 20 bis 30 Milliarden Dollar. Braucht 5 bis 10 Jahre Bauzeit. Benötigt Reinräume sauberer als ein Operationssaal. Und die entscheidende Maschine — ASMLs EUV-Lithograph — kostet über 300 Millionen Dollar pro Stück und existiert nur in wenigen Dutzend Exemplaren weltweit. TSMC hat 50 Jahre Erfahrung, Zehntausende Ingenieure und einen Wissensvorsprung den niemand in wenigen Jahren aufholen kann. Samsung versucht es. Intel versucht es. Beide sind Jahre zurück. Die Zahlen sind atemberaubend: TSMC fertigt auf einer Fläche die kleiner ist als manche Schweizer Kantone Chips im Wert von über 80 Milliarden Dollar pro Jahr. Ein einziger TSMC-Wafer — eine Siliziumscheibe von 30 Zentimeter Durchmesser — kann Hunderte von Chips enthalten, jeder Wert von tausenden Dollar. Die neueste Fertigungstechnologie — 2 Nanometer — bedeutet Strukturen 50.000 Mal dünner als ein menschliches Haar. Auf einem einzigen Chip sitzen mehr Transistoren als Menschen auf der Erde. Das geopolitische Problem: Taiwan liegt 180 Kilometer vor der chinesischen Küste. China betrachtet Taiwan als Teil seines Territoriums. Das bedeutet: 90% der weltweiten High-End-Chip-Produktion hängt an einem laufenden geopolitischen Konfliktherd. Ein Ausfall von TSMC — aus welchem Grund auch immer — würde die globale Technologieindustrie innerhalb von Monaten zum Stillstand bringen. Keine neuen iPhones. Keine neuen KI-Server. Keine neuen Autos. Die gesamte digitale Wirtschaft läuft auf TSMC-Chips. Das Ökosystem um TSMC: TSMC ist der Kern — aber drum herum gibt es ein ganzes Ökosystem das wir in den letzten Posts kennengelernt haben: 🏭 ASML $ASML — liefert die EUV-Maschinen ohne die TSMC nicht fertigen kann 🏭 Applied Materials $AMAT , Lam Research $LRCX KLA $KLAC — liefern Ätz-, Beschichtungs- und Inspektionsanlagen 🏭 Soitec — liefert die spezialisierten Wafer-Substrate 🏭 Teradyne $TER & Advantest — testen jeden fertigen Chip 🏭 ASE & Amkor $AMKR — übernehmen das Advanced Packaging Kein einziges Unternehmen in dieser Kette ist ersetzbar. Jeder Ausfall stoppt die gesamte Produktion. Kurz zusammengefasst: 🏭 TSMC — baut über 90% aller High-End-Chips der Welt, im Auftrag aller grossen Chip-Designer 📍 Taiwan — 180 km vor China, wichtigster geopolitischer Hotspot der Technologiewelt 💰 Eine Fabrik kostet 30 Mrd. Dollar — der Wissensvorsprung ist unbezahlbar

1,428

エクセルソフト株式会社 (インテルソフト最新情報発信局)

JG7MER / Ackee📡📶 retweeted

エクセルソフト株式会社 (インテルソフト最新情報発信局)

@xlsoft_i_sw

Jun 10

【インテルソフトウェア開発ツールの最新情報を解説💻】「インテル oneAPI ツールキット」バージョン 2026 の主な変更点に加え、インテルのプロセッサー製品に関する最近の公開情報もあわせて紹介する無料ウェビナーを開催！ C/C 、Fortran による開発や HPC・AI 開発において、インテルソフトウェア開発ツールの最新情報を確認したい方におすすめです。お申込みはこちら【7/10 (金) 開催 | オンライン | 参加無料】 👉xlsoft.com/jp/products/intel…

インテルソフトウェア開発ツール 2026 リリースセミナー

このセミナーでは、最近の oneAPI の概要をご紹介したうえで、インテルソフトウェア開発ツールのバージョン 2026 に関する主な変更点を説明します。

xlsoft.com

101

しろ

しろ @sirogamer23

Jun 11

Intel xpuでtorchを使うときにはOneAPIを入れたうえでパスを通し、実行環境で"C:\Program Files (x86)\Intel\oneAPI\setvars.bat"を実行してね！ ↑ 知らねえよ！！！！！！！！！！！

Alex.Z

Alex.Z @axpzhang

Jun 10

Replying to @fantuantalk @afly813

对比 oneAPI 呢

월드

월드

@dev_world_

Jun 9

Replying to @vdweqn

으악 인텔 oneapi 싫어요

leopardracer

leopardracer

@leopardracer

Jun 8

x.com/i/article/206389329292…

258

523,881

Tim Reynolds

Tim Reynolds @__timreynolds

Jun 7

Replying to @IanCutress @LipBuTan1

Intel needs better marketing and PR, especially when it comes to oneAPI and taking on CUDA - I'm also hearing that open source evangelism has been cut? oneAPI needs developers, I'm currently working with it in my AI Home Lab for parallelism We need more Discrete Arc Pro cards!

Ken Granville

Ken Granville

@Ken_Granville

Jun 7

Replying to @Drjab699John @BloombergTV @mindaptiv

Ha. I'm hardly a genius, John, just asking the right questions for many years. Good news: there's already a downloadable build at adaptwithchameleon.com with fixed problem sets for now, producing Composite Job Descriptions. Not made from code, made from meaning coordinates. No compiler. No CUDA. No ROCm. No OneAPI. SPIR-V, not code or AI mimicking what coders do. Q3 is when it gets interesting: buffer feeds Synergy® expansion unlock a much wider range of use cases, including customizable Aptivs under license. Stay close, you'll want to be an early hands-on user.

Logos Mageia

Logos Mageia

@rib_donor

Jun 7

Replying to @0xSero

> Nemotron is nvidia-family cuda based > vLLM also cuda optimized > vs experimental oneAPI/SYCL doing frontier work if you are working on this

162

게로밍

게로밍

@zsdcxa13

Jun 5

다들 엔비디아가 시가총액 1위를 찍은 비결이 하드웨어(GPU) 깡패라서 그렇다고 생각하는데, 진짜 핵심은 따로 있어. 바로 'CUDA(쿠다)'라는 소프트웨어 생태계야. 지난 15년 동안 AI 개발자들은 무조건 CUDA 위에서만 코드를 짜왔음. 시중에 깔린 거의 모든 AI 오픈소스 라이브러리가 엔비디아 칩에 최적화되어 떡칠 되어 있다는 뜻이지. "칩은 바꿀 수 있어도 개발자들의 손가락(익숙함)은 못 바꾼다" 이게 엔비디아가 가진 무적의 록인(Lock-in) 공식이었어. 이 단단한 콘크리트 성벽을 구글이 어떤 소프트웨어 무기로 부수려고 하는지 텐서플로우는 잊어라, 구글의 새로운 칼날 'JAX' 과거 구글이 만든 텐서플로우(TensorFlow)가 메타의 파이토치(PyTorch)한테 밀린 건 팩트야. 하지만 구글이 이 갈고 만든 차세대 비밀병기가 바로 *JAX(재엑스)'임. 이 JAX가 무서운 이유는 거대언어모델(LLM)을 분산 학습시킬 때 속도와 효율이 미치도록 빠르기 때문이야. 실제로 구글 제미나이(Gemini)는 물론이고, 요즘 가장 핫한 엔비디아 대항마인 앤트로픽(클로드 만드는 곳)도 구글 TPU와 JAX 조합을 엄청나게 헤비하게 쓰고 있어. 이미 초거대 AI를 만드는 탑티어 연구소들 사이에서는 CUDA 못지않은 필수 대안으로 완전히 자리 잡았지. CUDA의 목줄을 끊는 치트키, 'OpenXLA' 구글 소프트웨어 전략의 핵심 몸통은 **'OpenXLA'**라는 컴파일러야. AI 코딩 언어(PyTorch, JAX)와 반도체 하드웨어 사이에 들어가는 '초고성능 번역기'라고 보면 돼. 이게 엔비디아한테 왜 치명적이냐면, 개발자가 코드를 짤 때 하드웨어가 엔비디아 GPU인지 구글 TPU인지 신경 쓸 필요가 없게 만들어 주거든. "너네는 그냥 원래 쓰던 대로 편하게 코딩해. 하드웨어 맞춤형 번역은 OpenXLA가 알아서 해서 구글 TPU든, AMD 칩이든 완벽하게 최적화해서 돌려줄게"라는 식임. 엔비디아 칩에만 묶여있던 CUDA의 독점 연결고리를 중간에서 뚝 끊어버리는 역할이지. 혼자가 아니다, '반(反) 엔비디아 연합군'의 탄생 더 무서운 건 이 전쟁을 구글 혼자 치르는 게 아니라는 점이야. 구글은 인텔, AMD, Arm, 삼성, 퀄컴 등과 손잡고 **'UXL 재단(Unified Acceleration Foundation)'**을 결성했어. 엔비디아의 독점과 폭리에 피눈물 흘리던 테크 거인들이 모여서 "제발 CUDA 좀 같이 대체하자"며 공동 전선을 구축한 거지. 이 연합군들이 OpenXLA와 oneAPI 같은 오픈소스 프로젝트에 돈과 인력을 미친 듯이 태우면서, 엔비디아 칩이 없어도 AI 하드웨어가 100% 돌아가는 '범용 소프트웨어 표준'을 완성해 가고 있어. 그래서 CUDA 무너졌냐고? (냉정한 현실 체크) "그럼 구글 연합군이 이긴 거 아님?" 하겠지만, 바닥 민심은 생각보다 끈질겨. 현업의 90%를 차지하는 일반 데이터 사이언티스트나 주니어 개발자들은 여전히 학부 시절부터 배우던 '파이토치 CUDA' 조합을 정석으로 써. 깃허브에 올라오는 대다수의 코드와 개발 커뮤니티의 레퍼런스도 CUDA 기반이지. 구글의 JAX와 OpenXLA가 최상위 10%의 빅테크와 연구소(Hyper-scaler)들 선에서는 CUDA를 완벽히 위협하고 있지만, 대중적인 대다수 개발자 생태계까지 완전히 뒤집으려면 시간이 더 필요한 게 사실이야. 세 줄 요약하자면 1 엔비디아의 독점력은 하드웨어가 아니라 **'CUDA'**라는 소프트웨어 록인에서 나온다. 2 구글은 **JAX(프레임워크)**와 **OpenXLA(컴파일러)**를 통해 하드웨어에 종속되지 않는 우회로를 뚫었다. 3 빅테크 연합군(UXL)까지 가세해 상위 10%의 초거대 AI 영역에선 이미 CUDA의 벽이 균열을 일으키고 있다. 결국 구글이 유상증자까지 해가며 TPU 인프라를 늘릴 수 있는 자신감은, 엔비디아의 핵심 무기인 '소프트웨어 독점권'을 무력화할 수 있는 대안을 이미 손에 쥐고 있기 때문이야.

5,859

白羽のrbq

白羽のrbq

@llppss4

Jun 5

x.com/i/article/206276478778…

514

Tips Excel

Tips Excel

@gudanglifehack

Jun 1

x.com/i/article/206138375807…

711

Bluechip

Bluechip

@BluechipsAI

Jun 1

JUST IN: Intel detailed its new data-center AI chip "Crescent Island" at Computex. The headline reads "Intel takes on Nvidia and AMD." The real story is smarter than that. Intel isn't chasing the training crown. Crescent Island is inference-only, and it makes one contrarian bet: skip HBM entirely. While Nvidia (Rubin) and AMD (MI400) fight over scarce, expensive HBM, Intel is loading up to 480GB of cheap LPDDR5X ~5-10× lower cost per GB, air-cooled, no liquid plumbing. Built for agentic AI, FP4 to FP64. The wedge: Nvidia owns training. Intel wants the inference bill the tokens-as-a-service economics where memory capacity and cost-per-watt matter more than peak FLOPs. The catch: samples H2 2026 (GA likely 2027), Xe3P is unproven in the datacenter, and oneAPI is years behind CUDA. By the time it ships, Blackwell and MI400 are entrenched. Smart niche. Long road. $INTC

2,742

Sim

Sim @Sim0000

May 31

以前のIntel Cコンパイラは現在はIntel® oneAPI DPC /C Compilerとなって無料公開されている。以前と違ってLLVMベースになりIntel向けにチューニングされている。 intel.com/content/www/us/en/…

Compile Cross-Architecture: Intel® oneAPI DPC /C Compiler

Compile for CPUs, GPUs, and FPGAs with an LLVM technology-based compiler that enables custom accelerator tuning and supports OpenMP for GPU offload.

intel.com

220

Steeve Morin

Steeve Morin @steeve

May 24

Intel oneAPI support for @zml_ai PR now open at github.com/zml/zml/pull/550 Multi-GPU support doesn't work yet, but single GPU runs at SOTA. This now the 5th architecture we support, and 2 more are incoming.

zml/platforms: add experimental oneapi (intel) by neudinger · Pull Request #550 · zml/zml

Add experimental Intel GPU backend Add oneAPI as a ZML platform target with Bazel flags, module extension repositories, and PJRT runtime packaging for Linux Intel GPUs. package libpjrt_oneapi with...

github.com

Steeve Morin @steeve

May 11

progress

4,570

Steve💙🇨🇦

Steve💙🇨🇦

@xyster

May 23

Bot generated feedback for @Intel, after trying to deploy my changes: github.com/steveseguin/b70-o… -Native XPU kernel builds are extremely memory hungry -Version compatibility is too implicit -ocloc/IGC internal compiler errors need handling -oneAPI env selection is easy to get wrong

b70-optimization-lab/docs/intel-b70-minimax-feedback-20260523.md at main · steveseguin/b70-optimi...

Contribute to steveseguin/b70-optimization-lab development by creating an account on GitHub.

github.com

2,119

Steve💙🇨🇦

Steve💙🇨🇦

@xyster

May 23

Replying to @JoesInvestments

Minimax M2.7 INT4 Autoround W4A16 /w vllm OneAPI

472

インテル ソフトウェア開発ツール 2026 リリースセミナー

Compile Cross-Architecture: Intel® oneAPI DPC /C Compiler

zml/platforms: add experimental oneapi (intel) by neudinger · Pull Request #550 · zml/zml

b70-optimization-lab/docs/intel-b70-minimax-feedback-20260523.md at main · steveseguin/b70-optimi...

インテルソフトウェア開発ツール 2026 リリースセミナー