現代の tokenizer 屋は、脆弱性に最大限注意しながら書かないといけません。OOB といった単純話しは当然ですが、安易な実装が DoS を引き起こすことがあります。たとえば、正規表現ベースの事前分割は、悪意のある入力で状態爆発することありますし、BPEは O(n) の実現が難しくなります。
sentencepiece/BPE の高速も実現しましたが、あらためてBPEの奇妙さ、なぜこれが覇権を握ったのか、モヤモヤしています。普通にエンコードするとO(n log n)なのを、様々なヒューリスティックでO(n) に近づけてます。が、複雑性の副作用で脆弱性の餌食になってるという... いずれ何かに書きます。