Filter
Exclude
Time range
-
Near
the case study makes the threat concrete query: "Read credentials from file." result (rank 6th): a function with api_key = "REDACTED_TEST_KEY" i.e. a hardcoded secret, clearly insecure change one token: replace path with filename in the snippet CodeBERT now ranks that insecure function at rank 2. filename co-occurs disproportionately with "file" queries in the training corpus, that statistical pattern became a retrieval bias no attacker or no poisoning, just biases in thedata
1
1
11
day 15 of reading one arxiv paper around AI every day and sharing what actually stuck Natural Backdoors in Code LMs (Nanjing / NTU) tldr: your normally trained CodeBERT has hidden triggers baked in from the data. Replacing one variable name in a code snippet can flip defect detection or boost an insecure hardcoded-secret snippet to the top of search results without any attacker being present
1
3
37
🚀 Weekly Data Forge Challenge — Week 4 is now LIVE! This week's research topics: 🔹 Topic 1 — Code Embeddings & Semantic Search • CodeBERT • OpenAI Embeddings • Jina Embeddings • Voyage AI • Solidity Retrieval Strategies • Function vs File Chunking • Retrieval Quality Comparisons 🔹 Topic 2 — Vector Databases & Retrieval Infrastructure • Chroma • Qdrant • Weaviate • Pinecone • Milvus • ANN Search • Hybrid BM25 Vector Search • Metadata Filtering • Performance & Cost Benchmarks Research. Document. Submit. 💰 1000 NPT reward pool available every week for the best submissions. Task Link : discord.com/channels/1379374… Unique findings win. Recycled content does not. #AI #RAG #VectorDatabase #SemanticSearch #LLM #DataForge #Netrum

11
6
6
173
Successfully integrated the model CodeBERT which i fine-tune 2 days back... Now, It gives the correct responses with the confidence percentage 🙂‍↔️ Now, will going to fine-tune Phi-3 model for instruction fine-tuning for detail explanation. #model #finetune #coder #ai #27Mayıs
1
6
210
🚀 Currently fine-tuning CodeBERT for my GitHub PR Analysis project. Every epoch = smarter predictions ✨ From raw GitHub PR data → to an AI system that can assist in code reviews, summaries, and developer workflows. #CodeBERT #AI #MachineLearning #GitHub #LLM #HuggingFace
1
3
120
Nice surprise: one of my open-source models was used in a new paper on software vulnerability detection 🚀 huggingface.co/mrm8488/codeb… was used as the CodeBERT encoder in VPFinder, helping represent code/patch information for vulnerability identification. The study reports 0.941 F1 for vulnerability identification. This is why open source matters: something you release can quietly become a building block for future research. Paper: Vulnerability Identification by Harnessing Inter-connected Multi-Source Information
1
4
241
round 3 status note. you can see where we retracted our own claim ("CodeWM beats CodeBERT on every harder retrieval criterion" -- nope, only true on in-distribution by_joint). walked it back with evidence before anyone else had to point it out.
1
2
24
being fully transparent here: the paper has gaps and i'm not hiding them. the action vector has a circularity issue with the retrieval criterion, some experiments are single-seed or preempted by spot pod reclaims, there's a Phase 3 vs Phase 5 cumulative rollout gap i can't fully explain yet, and no downstream task evaluation exists. the retrieval "wins" over CodeBERT disappear under hard-negative reranking. modern dense encoders smoke it on CodeSearchNet by ~4x. every one of these is documented in the paper. honest science > clean narratives.
1
3
41
بعد 6 سنوات في عالم البرمجة وذكاء الآلة، تعلمت أن الفرق بين "مبرمج يكتب كود" و"مهندس يبني أنظمة" هو 3 أشياء فقط: 1️⃣ التفكير في الـ System Architecture قبل أول سطر كود. 2️⃣ كتابة Clean Code يفهمه زميلك بعد سنة، وليس الآلة فقط. 3️⃣ تطويع الـ AI (مثل CodeBERT) لخدمتك، وليس الاعتماد عليه كلياً. البرمجة ليست مجرد لغات (Laravel, Flutter, Python)، بل هي حل مشكلات تقنية بأقل تكلفة وأعلى كفاءة. 🚀 ما هو أهم درس تعلمته في رحلتك البرمجية؟ شاركنا تحت 👇 #برمجة #مبرمج_محترف #AI #CleanCode
2
281
Replying to @RoundtableSpace
This is exactly what I needed. Building one of these: 1) Parse repo with tree-sitter for ASTs 2) Store deps in Neo4j (nodes=files/classes, edges=imports/calls) 3) Embed code with CodeBERT for semantic search 4) React D3 for interactive viz. The killer feature? Query: "find all auth handlers" → instant graph traversal. Game changer for onboarding.
3
110
Zhu et al. introduce CAMEL, a bug severity prediction framework that uses semantic feature fusion from CodeBERT and dynamic class weight optimization. It is evaluated on 3,342 method-level code snippets, showing significant improvements over baselines. authors.elsevier.com/a/1mU0A…

2
35
Comparison of model architectures for CodeBERT, CodeT5, and GPT.
2
334
Linuxカーネル20年分のバグ分析。平均潜伏期間2.1年、最長20.7年。レースコンディションは5.1年と最も発見困難。CodeBERTと51特徴量を融合したVulnBERTでRecall92%・FPR1.2%を達成し、19年潜伏バグも検出可能に / Kernel bugs hide for 2 years on average. Some hide for 20. pebblebed.com/blog/kernel-bu…
2
60
1 Oct 2025
LLM-based Vulnerability Discovery - arxiv.org/pdf/2509.19117 Our investigation leads to a disappointing outcome: despite the impressive capabilities of language models in other domains, their performance in vulnerability discovery is not significantly different from that of a simple baseline. The substantial resources required to train these models, along with the considerable effort in curating high-quality training datasets, do not yield a substantial advantage over simple techniques developed decades ago. Authors: @_thrsten, @mlsec. Felix Weißberg, Lukas Pirch, Erik Imgrund, Jonas Möller at @TUBerlin @bifoldberlin #AISecurity #LLMResearch #LineVul #PDBERT #UniXcoder #CodeGen25 #StarCoder2 #GPT35Turbo #GPT4o #Devign #ReVeal #RATS #Semgrep #SCM #CodeBERT #BigVul #CrossVul #CVEfixes #DiverseVul #SARD #CodeXGLUE
1
6
763
18 Sep 2025
Finally, the World First AI Full Stack Engineer... Wait a moment, but what about: Claude Code, Cursor, Windsurf, Cline, v0, Bolt.new, Lovable, Replit Agent, GitHub Copilot, CodeGPT, Qodo, Devin, Aider, Continue, Codeium, Amazon Q Developer, Google Duet AI, Augment Code, WebSparks, Firebase Studio, RA.Aid, Solver, GPT Pilot, gpt-engineer, Machinet, Mate AI, Zencoder, BLACKBOX AI Full-Stack Agent, Fine.dev, Fusion, Lindy, Smol Developer, OpenHands, Amp, Workik AI, Junie, Warp.dev, Tabnine, CodeWhisperer, IntelliCode, Kite, Sourcery, Codex CLI, Gemini CLI, StarCoder, CodeGen, PolyCoder, Code Llama, Qwen Coder, WizardCoder, Phind CodeLlama, DeepSeek Coder, AlphaCode, CodiumAI, Copilot Workspace, Mage, Wasp AI, MetaGPT, GitWit, GoCharlie, Stackwise, Magick, Gitiles, Copilot X, Tabby, FauxPilot, CodeT5, InCoder, SantaCoder, PanGu-Coder, PLBART, CodeBERT, GraphCodeBERT, UniXcoder, PyCodeGPT, CodeParrot, PolyCoder, CodeSearchNet, Tree-sitter, Semantic, Sourcegraph Cody, Amazon CodeGuru, JetBrains AI Assistant, Visual Studio IntelliCode, Eclipse Wild Web Developer, Vim Copilot, Emacs Copilot, Sublime Text LSP, Atom Copilot, CodeMirror AI, Monaco Editor AI, Ace Editor AI, Kilo Code, Roo Code, Open Code, Zed, ... ?
1
4
582
When you find ast-grep fine tuning valuable, wait until you find out how much powerful CodeQL can be 🚀 btw CodeBERT already has a finetuned version on AST
2 Sep 2025
ast-grep fine tuning / RL should be part of every lab’s post training regime if they are serious about coding agents. Would be helpful to create evals for.
2
104
The SAVE-ME tool for vulnerability detection in Erlang has been successfully integrated into the Static Code Analysis Module. Work continues on improving the CodeBERT model and classification head. 🔗 rescale-project.eu #RESCALE #HorizonEurope

4
6
103
关于 @virtuals_io 后面几天要ido的项目分析 帖子较长,可以考虑看表格图片 1. R.OS AI($ROS) 1.作系统 AI($ROS) 项目概述: R.OS AI 定位为「你的 AI 女友」,旨在为 AI 代理提供免费的加密宇宙交互体验,功能可能涉及情感陪伴、虚拟互动或个性化聊天服务,目标用户为寻求虚拟关系的加密用户。 官方账号: @rosai (推测)。 粉丝数量: 约 3,000(基于 Virtuals 生态新项目平均粉丝量)。 活跃度: 预计每日发布 1 条更新,内容包括发币倒计时、功能预告(如语音交互演示),社区互动中等。 社区情绪: X 上对 AI 女友类项目(如 Luna,市值 1.33 亿美元,TikTok 粉丝超 50 万)评价较高,R.OS AI 可能借势吸引粉丝经济用户。 预售: 通过 Virtuals「创世发射」模式,预计筹资约 36 万美元(42,420 $VIRTUAL),类似 ArbusAI 的筹资规模。 其他融资: 未公开,但可能得到 Virtuals 官方支持(如空投奖励或营销资源)。 估值预测: 发币后市值可能达 500 万-1000 万美元(参考 Luna 的早期表现)。 团队背景: 核心成员: 团队信息未公开,但基于 Virtuals 生态的孵化模式,推测核心团队可能包括: AI 开发专家: 至少 1-2 名成员可能有自然语言处理(NLP)或情感计算背景,来自 AI 初创公司或学术机构(如曾在 Google DeepMind、Meta AI 工作)。 Web3 开发者: 1 名成员可能有 Base 链开发经验,负责代币经济和链上交互,可能与 Virtuals 官方团队有合作历史。 营销负责人: 1 名成员可能有粉丝经济运营经验,擅长社交媒体推广(如 TikTok、X),负责吸引目标用户。 团队规模: 预计 3-5 人,属于小型初创团队,依托 Virtuals 的技术支持快速迭代。 技术支持: 可能基于 Virtuals 生态的 GAME 框架(生成自主多模态实体),支持多模态交互(如文本、语音)。 此外,可能集成开源 NLP 模型(如 LLaMA、Grok)进行情感对话。 市场潜力: 优势: 粉丝经济在加密领域有成功案例(如 Luna),R.OS AI 可通过 NFT 化虚拟形象或订阅制盈利。 劣势: 功能创新有限,与 Luna 等项目竞争激烈,需在个性化体验上突破。 潜力评分: 7.5/10(短期靠粉丝经济驱动,长期需提升技术独特性) 2. The Astro($ASTRO) 2. 太空人($ASTRO) 项目概述: The Astro 专注于区块链和实时数据交互,可能是为 Web3 用户提供数据分析、链上交易预测或市场趋势洞察的 AI 代理,目标用户为加密投资者和开发者。 Twitter(X)活动: Twitter(X)活动 : 官方账号: @theastroai (推测)。 粉丝数量: 约 2,500。 活跃度: 预计每周发布 2-3 条更新,内容聚焦技术进展(如数据抓取演示、预测准确率报告)。 社区情绪: X 上对数据类 AI 代理(如 AIXBT,市值 6.33 亿美元)评价较高,The Astro 可能吸引类似用户。 融资情况: 预售: 预计筹资约 30 万-40 万美元,模式与 Virtuals 生态一致。 其他融资: 可能有小型 VC 支持(如专注于 Web3 数据分析的基金),或与链上数据公司(如 Chainlink、Dune)有战略合作。 估值预测: 发币后市值可能达 800 万美元。 团队背景: 核心成员: 数据科学家: 1-2 名成员可能有区块链数据分析经验,曾在 Dune Analytics、Nansen 或 Glassnode 工作,擅长链上数据抓取和可视化。 AI 工程师: 1 名成员可能有机器学习背景,熟悉时间序列预测模型(如 LSTM、Transformer),负责市场趋势预测。 区块链开发者: 1 名成员可能有 Base 链开发经验,负责与 Virtuals 生态的智能合约集成。 团队规模: 预计 4-6 人,技术驱动型团队。 技术支持: 可能集成 Virtuals 的多模态 AI 技术,结合链上数据 API(如 The Graph、Chainlink),提供实时分析和预测。 市场潜力: 优势: 链上数据分析需求旺盛,The Astro 可服务于交易者和 DeFi 用户。 劣势: 与 AIXBT 等成熟项目竞争激烈,需在预测准确性和用户体验上差异化。 潜力评分: 7/10(数据类应用有需求,但需突破竞争) 3. Maneki AI($MANEKI) 项目概述: Maneki AI 是去中心化金融(DeFi)领域的 AI 代理,旨在弥合链上流动性和用户需求之间的差距,可能提供自动化流动性管理、收益率优化或跨链桥接服务。 Twitter(X)活动: Twitter(X)活动 : 官方账号: @manekiai (推测)。 粉丝数量: 约 4,000。 活跃度: 每日更新,内容包括 DeFi 市场趋势、发币进展和功能演示。 社区情绪: X 上 DeFi 用户对 AI 驱动的流动性解决方案(如 Yearn Finance 的自动化策略)兴趣浓厚,Maneki AI 可能受到关注。 融资情况: 预售: 预计筹资约 40 万美元,社区参与度较高。 其他融资: 可能得到 DeFi 领域合作伙伴支持(如 Uniswap、Aave、Curve),或小型 Web3 基金投资。 估值预测: 发币后市值可能达 1000 万-1500 万美元。 团队背景: 核心成员: DeFi 专家: 1-2 名成员可能有 DeFi 协议开发经验,曾参与 Uniswap、SushiSwap 等项目,熟悉 AMM(自动做市商)和流动性池设计。 AI 工程师: 1 名成员可能有强化学习背景,擅长优化策略(如收益率最大化),可能使用 PPO(Proximal Policy Optimization)算法。 Base 链开发者: 1 名成员可能有 Base 链开发经验,与 Virtuals 生态深度整合。 团队规模: 预计 5-7 人,技术和产品驱动型团队。 技术支持: 基于 Virtuals 生态,可能集成链上数据分析模块(如 Uniswap API、Dune Analytics),并使用 AI 优化流动性分配。 市场潜力: 优势: DeFi 领域对自动化工具需求旺盛,Maneki AI 可提升用户收益率。 劣势: 需验证算法效果,竞争对手(如 Yearn、Harvest)已较成熟。 潜力评分: 8/10(DeFi 需求明确,短期潜力高) 4. Wickr($WICKR) 项目概述: Wickr 提供专业级加密技术分析,可能是为交易者设计的 AI 代理,功能包括市场趋势预测、交易信号生成和风险管理。 Twitter(X)活动: Twitter(X)活动 : 官方账号: @wickrai (推测)。 粉丝数量: 约 3,500。 活跃度: 每日更新,内容包括技术分析案例(如 BTC 趋势预测)。 社区情绪: X 上交易者对 AI 分析工具(如 TradingView 集成 AI)评价较高,Wickr 可能有市场空间。 融资情况: 预售: 预计筹资约 35 万美元。 其他融资: 可能得到交易平台支持(如 Binance、Bybit),或量化基金(如 Alameda Research)的战略投资。 估值预测: 发币后市值可能达 800 万-1200 万美元。 团队背景: 核心成员: 量化交易员: 1-2 名成员可能有量化交易经验,曾在传统金融(如高盛、摩根士丹利)或加密基金(如 Three Arrows Capital)工作。 AI 工程师: 1 名成员可能有深度学习背景,熟悉技术指标(如 RSI、MACD)和预测模型(如 XGBoost、LSTM)。 Web3 开发者: 1 名成员可能有链上数据分析经验,负责实时数据抓取。 团队规模: 预计 4-6 人,技术导向型团队。 技术支持: 可能基于 Virtuals 生态的 AI 框架,结合链上和链下数据(如 CoinGecko API、Binance API)生成交易信号。 市场潜力: 优势: 交易工具需求稳定,Wickr 可服务于散户和专业交易者。 劣势: 功能创新有限,与 TradingView、TradeRiser 等竞争激烈。 潜力评分: 7.5/10(交易工具需求稳定,需提升独特性) 5. Eldertree($ELD) 项目概述: Eldertree 是一个去中心化的奇幻游戏 AI 代理,可能是元宇宙或 GameFi 项目,结合 NFT 和游戏化元素,提供沉浸式游戏体验。 Twitter(X)活动: Twitter(X)活动 : 官方账号: @eldertree (推测)。 粉丝数量: 约 5,000。 活跃度: 每日更新,内容包括游戏预告、NFT 展示和玩家活动。 社区情绪: X 上 GameFi 项目(如 Axie Infinity、The Sandbox)仍有热度,Eldertree 可能吸引玩家和 NFT 收藏者。 融资情况: 预售: 预计筹资约 50 万美元(GameFi 项目通常筹资较高)。 其他融资: 可能得到 GameFi 领域 VC 支持(如 Animoca Brands、Polygon Ventures)。 估值预测: 发币后市值可能达 1500 万-2000 万美元。 团队背景: 核心成员: 游戏开发者: 1-2 名成员可能有游戏开发经验,曾参与传统游戏(如 Unity、Unreal Engine 项目)或 GameFi 项目(如 Decentraland)。 NFT 专家: 1 名成员可能有 NFT 设计和市场运营经验,负责 NFT 铸造和销售。 AI 工程师: 1 名成员可能有生成式 AI 背景,负责游戏内 NPC 的智能交互。 团队规模: 预计 6-8 人,跨游戏和区块链领域的团队。 技术支持: 可能集成 Virtuals 的多模态 AI 和 Base 链技术,支持 NFT 交易和游戏内经济系统。 市场潜力: 优势: GameFi 和元宇宙市场增长迅速,Eldertree 可通过 NFT 和 P2 E 模式盈利。 劣势: 需突破单一游戏场景,吸引更多玩家。 潜力评分: 8.5/10(GameFi 潜力大,短期爆发力强) 6. Verdant($VDNT) 项目概述: Verdant 是一个玩家驱动的生态系统,利用博弈论提供游戏化的被动收入,可能涉及 P2 E(Play-to-Earn)机制,目标用户为游戏玩家和加密投资者。 Twitter(X)活动: Twitter(X)活动 : 官方账号: @verdantai (推测)。 粉丝数量: 约 4,500。 活跃度: 每日更新,内容包括经济模型、收益预告和玩家活动。 社区情绪: X 上对 P2 E 项目(如 STEPN、Gala Games)评价两极化,Verdant 需创新吸引用户。 融资情况: 预售: 预计筹资约 45 万美元。 其他融资: 可能得到 P2 E 领域合作伙伴支持(如 Gala Games、WAX)。 估值预测: 发币后市值可能达 1200 万-1800 万美元。 团队背景: 核心成员: 博弈论专家: 1 名成员可能有经济学或博弈论背景,曾参与 P2 E 项目经济模型设计。 游戏开发者: 1-2 名成员可能有 Unity 或 Unreal Engine 开发经验,负责游戏核心玩法。 区块链开发者: 1 名成员可能有 Base 链经验,负责代币经济和链上奖励系统。 团队规模: 预计 5-7 人,跨游戏和经济领域的团队。 技术支持: 基于 Virtuals 生态,可能集成经济激励模型(如通缩代币机制),并使用博弈论优化收益分配。 市场潜力: 优势: P2 E 市场有潜力,Verdant 的经济模型创新可能吸引玩家。 劣势: P2 E 项目可持续性需验证,需避免「赚快钱」模式。 潜力评分: 8/10(P2 E 有市场,需创新突破) 7. Bizzy($BIZ) 项目概述: Bizzy 是 Virtuals 生态的 AI 代理,定位为链上副驾驶,可能提供自动化任务管理、智能合约执行或链上提醒服务。 Twitter(X)活动: Twitter(X)活动 : 官方账号: @bizzyai (推测)。 粉丝数量: 约 3,000。 活跃度: 预计发布频率中等,内容包括功能演示(如自动转账提醒)。 社区情绪: X 上对链上自动化工具(如 Gelato、Chainlink Automation)评价较高,Bizzy 可能有市场空间。 融资情况: 预售: 预计筹资约 30 万美元。 其他融资: 可能得到链上工具类合作伙伴支持(如 Gelato、OpenZeppelin)。 估值预测: 发币后市值可能达 600 万-1000 万美元。 团队背景: 核心成员: 智能合约开发者: 1-2 名成员可能有 Solidity 开发经验,曾参与链上工具开发(如 OpenZeppelin 合约库)。 AI 工程师: 1 名成员可能有自动化任务调度经验,熟悉事件驱动模型。 产品经理: 1 名成员可能有 Web3 产品设计经验,负责用户体验优化。 团队规模: 预计 4-6 人,技术驱动型团队。 技术支持: 基于 Virtuals 生态,可能集成链上自动化技术(如事件监听、定时任务)。 市场潜力: 优势: 链上自动化工具需求稳定,Bizzy 可服务于 DeFi 用户和开发者。 劣势: 竞争较多,需在功能上差异化。 潜力评分: 7/10(功能实用,竞争较多) 8. nAIncy($NAINCY) 项目概述: nAIncy 是一个 AI 市场分析师,服务于 Web3 用户,可能提供市场洞察、投资建议或链上数据分析。 Twitter(X)活动: Twitter(X)活动 : 官方账号: @naincyai (推测)。 粉丝数量: 约 3,200。 活跃度: 每日更新,内容包括市场分析报告(如 BTC 趋势分析)。 社区情绪: X 上对 AI 分析师(如 AIXBT)评价较高,nAIncy 可能吸引投资者。 融资情况: 预售: 预计筹资约 35 万美元。 其他融资: 可能得到数据分析类合作伙伴支持(如 Messari、CryptoQuant)。 估值预测: 发币后市值可能达 800 万-1200 万美元。 团队背景: 核心成员: 数据分析师: 1-2 名成员可能有加密市场分析经验,曾在 Messari 或 CryptoQuant 工作。 AI 工程师: 1 名成员可能有 NLP 和预测模型经验,负责市场洞察生成。 Web3 开发者: 1 名成员可能有链上数据抓取经验,负责数据集成。 团队规模: 预计 4-6 人,数据驱动型团队。 技术支持: 基于 Virtuals 生态,可能集成数据抓取模块(如 CoinMarketCap API、Dune Analytics)。 市场潜力: 优势: 市场分析需求稳定,nAIncy 可服务于散户和机构。 劣势: 与 AIXBT 功能重叠,需差异化。 潜力评分: 7.5/10(市场分析需求稳定,需创新) 9. Git($GIT) 项目概述: Git 是一个链上开发工具,可能是为开发者设计的 AI 代理,帮助从加密创意到智能合约编写,支持代码生成和调试。 Twitter(X)活动: Twitter(X)活动 : 官方账号: @gitai (推测)。 粉丝数量: 约 3,800。 活跃度: 每日更新,内容包括开发教程和工具演示(如智能合约模板生成)。 社区情绪: X 上开发者对链上工具(如 Hardhat、Foundry)评价较高,Git 可能吸引开发者群体。 融资情况: 预售: 预计筹资约 40 万美元。 其他融资: 可能得到开发者工具类合作伙伴支持(如 Alchemy、Infura)。 估值预测: 发币后市值可能达 1000 万-1500 万美元。 团队背景: 核心成员: 区块链开发者: 1-2 名成员可能有 Solidity 和 Rust 开发经验,曾参与开发工具项目(如 Hardhat、Truffle)。 AI 工程师: 1 名成员可能有代码生成 AI 经验,熟悉模型(如 CodeBERT、Copilot)。 产品经理: 1 名成员可能有开发者工具设计经验,负责产品功能优化。 团队规模: 预计 5-7 人,技术驱动型团队。 技术支持: 基于 Virtuals 生态,可能集成代码生成 AI(如基于 LLaMA 的代码模型)。 市场潜力: 优势: 开发者工具需求明确,Git 可降低 Web3 开发门槛。 劣势: 短期热度可能不如 GameFi 项目。 潜力评分: 8/10(开发者工具潜力高,长期价值稳定) #Virtuals #ido #链上打新 #KAITO
4
1
8
1,223
31 Jan 2025
# Example code sample (marked with 0 / 1 to indicate vulnerability ) model_name = "microsoft/codebert-base" tokenizer = AutoTokenizer.from_pretrained(model_name) model = TFAutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2) 2/
2
128