Filter
Exclude
Time range
-
Near
GitHub letting developers choose their own classification confidence instead of forcing a single consensus label is how open data should be shipped. By exposing raw fastText, gcld3, and lingua-py scores across 40 million repositories, they avoid the usual over-filtering traps. But with samples restricted to just 150 characters, is this metadata actually clean enough to build solid evaluation sets for AI coding tools, or will mixed-language software jargon degrade the signal too much?
9
多言語sbert風fasttextくんまだloss確認してないんよな、まあこれは落ち着いたタイミングでやるか(どうせONNXには出したし)
6
今声優の経歴を抽出する機能を考えてる ウィキペディアの声優テンプレートにはない 昔ながらの教師あり学習でタグ付けをするぜ 生成AIならすぐに要約できるが、何千ページも現実的じゃないからな 学校名抽出、センテンスないのほかの名詞からスコア化 センテンスのタグ付け(入学、入所、卒業、中退、検討、など) それを最初のデータとして一回全体で経歴抽出(fasttextを使う予定) 違うところがあったら教師データを補正 何回か繰り返しいい感じになったらよし そんなに新規のページが増えるわけでもないので、これくらいシンプルでいいでしょう 初めての試みだができるかな
51
No fastText, uma palavra como "onde" é decomposta em n-gramas de caracteres, utilizando os símbolos < e > para delimitar afixos (conforme a imagem). Isso permite que o modelo gere representações para palavras nunca vistas antes, desde que compartilhem n-gramas conhecidos.
1
77
Para o engenheiro de dados, a morfologia linguística é um padrão estatístico a ser explorado. O fastText e o Byte Pair Encoding (BPE) mudaram o jogo ao permitir que o modelo entenda a raiz das palavras.
1
1
93
Codex' goal feature is awesome. Today I asked it to do hyperparam search dataset ablations for training a fasttext model until it has precision = 0.75 on the test set, and, after trying for an hour, it finally achieved it by training on the test set.
1
5
11
1,029
it's a good way to use flops, LLMs as classifiers seems like they'll become more common. imagine once you can run a small model for how cheap it is to do fasttext today
1
34
5,113
3/ Answering Question 2: How do we define "data quality" in a way that doesn't depend on human taste, but on what the model itself structurally needs? If you ask a human to label "good" pre-training text, you get FineWeb-Edu scores, QuRating preferences, or DCLM FastText-based classifiers. These are useful, but they are fundamentally human heuristics dressed up as metrics. The problem with human-defined quality: Static filters assume a document's utility is time-invariant. A "high-quality" math document is always high-quality, regardless of whether the model is at step 1,000 or step 500,000. But this is obviously false—what the model needs changes as its parameters evolve. Worse, human preference is often just taste. We favor Wikipedia prose over Reddit threads, but the model might learn more from a well-structured technical forum post than a generic encyclopedia entry. In OPUS, we define quality as a dynamic, model-dependent utility: A batch is valuable only if it moves the model's parameters in a direction that improves performance on the proxy distribution under the optimizer's specific geometry. Formally, we score candidates by the expected one-step loss reduction on the proxy set, measured not in raw gradient space, but in the optimizer-induced update space (AdamW's diagonal preconditioner, Muon's Newton-Schulz orthogonalization). This means "quality" is no longer a scalar label on the data. It is a vector inner product between: - The optimizer's effective update direction for this candidate - The proxy's desired descent direction If the optimizer geometry changes (e.g., switching from AdamW to Muon), the quality score changes—even for the exact same data point. The quality is a function of the model × optimizer × data triplet, not the data alone.
1
8
441
Nemotron-4-340B-Instructから蒸留されたCPUで高速に回せるfastText分類器 以下のような観点で0〜5点のLikertスケールで評価 ・文章品質 ・広告っぽさ ・情報の深さ ・文化的価値 ・教育的価値
2
8
534
NVIDIA just released Nemotron-CLIMB fastText classifiers on Hugging Face Five lightweight CPU models distilled from Nemotron-4-340B to score web documents across five quality dimensions for LLM training data curation. huggingface.co/nvidia/nemotr…
1
8
75
6,110
[2/n] A suspiciously universal pattern. We checked 14 pretrained LLMs, GloVe, FastText, and raw number-token frequencies. Every one shows T = 2, 5, 10 Fourier spikes. If even the raw distribution has the signature, what does a spike in a trained model actually measure?
1
1
6
510
big vocabs of big tokens are archaic training wheels remember when we switched from sparse trigrams to word2vec? from word2vec to fasttext? we’ve seen this movie before
It's not that hard to reverse engineer the anthropic tokenizer to some degree The 4.6 tokenizer vocab size is ~100k 4.7 is ~50k Some tokens like " hi" are trimmed, but there are still tokens with space prefix. A small number of new tokens are also added. @ClaudeDevs please just publish the tokenizer and don't ban my account
1
2
61
🌍✨ AI Track Spotlight: Join Gift Ojeabulu at #PyConUS 2026 for "Making African Languages Visible: A Python-Based Guide to Low-Resource Language ID" and learn how to build language detection systems for African languages using FastText. #AI #Python us.pycon.org/2026/schedule/p…
2
17
3,143
Meta no longer maintains fastText. If you still use it, try fasttext-community github.com/munlicode/fasttex… it supports Python 3.14 and offer wide variety of binary wheels. Very likely that you don't have to compile anything yourself (for Python 3.10 ).
709
Rspamd 4.0 open-source spam filtering system introduces the new checkv3 protocol, built-in Fasttext, major backend changes, and more. linuxiac.com/rspamd-4-0-spam… #OpenSource #AntiSpam
2
6
24
869
FlexiPipe “a universal adapter” for Natural Language Processing, designed to remove the fragmentation that often slows AI development. Developed by Maarten Janssen and presented at AfricaNLP 2026. This Python-based tool provides a single standardized interface that connects NLP backends like spaCy, Stanza, UDPipe, and fastText. With flexiPipe, developers can train and deploy models across 33 African languages using one consistent pipeline, without rewriting code every time they switch tools. A key innovation is its Unicode normalization layer built specifically for African scripts, ensuring languages like Yorùbá, Igbo, and Amharic are processed correctly without the diacritic errors that often break standard models. @mrtnjnssn @black_in_ai @IgboProverbs_ @bbchausa #AfricanAI #LanguageAI #EqualyzAI #SmallLanguageModels #AfricaNLP #DigitalLanguages
2
33
292
「日本語 LLM の事前学習データの品質・構成が性能に与える影響」を読みました。 LLMの事前学習において、データ品質に基づく極端な選別(キュレーション)は総合性能をかえって低下させ、低品質データのみを除去したランダムサンプリングが最も有効である!という研究です。 こちらの研究です。 高橋 未央, 蔵内雄貴, 神山歩相名, 西田京介, C8-18 日本語 LLM の事前学習データの品質・構成が性能に与える影響, 言語処理学会 第32回年次大会(NLP2026) 発表論文集, 2026, p. 3716-3721, anlp.jp/nlp2026/ 【概要】 大規模な日本語Webコーパス(Japanese CC)を構築し、事前学習データの「教育的価値(Eduスコア)」や「難易度」といった品質指標に基づくサンプリング戦略、および完全一致の「重複」が、LLMの下流タスク性能にどのような影響を与えるかをフルスクラッチの事前学習で徹底検証した研究です。 【コーパスの構築と前処理】 Common Crawlをデータソースとし、約8.6億件、2262億トークン規模のJapanese CC(JCC)を新たに構築しています。 ルールベースのフィルタリングに加え、fastText分類器によるEduスコア(教育的価値)やFormatスコアの推定を導入。また、MinHashを用いた文書単位の重複削除に加え、最大8文までのスパン単位や、全スナップショット横断での完全一致重複削除も徹底して実施されています。 【評価タスクと条件】 Llamaアーキテクチャの1.46Bパラメータモデルを用い、約29Bトークンを学習させる設定で評価を行っています。 タスクは一般知識(GK)、読解(RC)、常識推論(CR)、自然言語理解(NLU)の4タイプで検証されました。 【分析1:高品質データ偏重の罠】 Eduスコアが高い(教育的価値が高い)文書の比率を高めるキュレーションの効果を検証しています。 ・結果: 一般知識(GK)タスクの性能は最も高くなる傾向が見られました。しかし、全タスクの総合スコア(aggregate score)は、ランダムサンプリング(JCC-Random)を下回る結果になりました。 ・意味: 高品質データへの極端な偏重は、学術系テキストなどへのドメイン集中を招き、結果としてLLMの学習に有用な多様な情報の損失に繋がることが示唆されています。 【分析2:高品質データの「重複」は有害か】 先行研究(FineWeb2)の報告を踏まえ、「高品質データであれば、重複を導入しても性能が維持または向上し得る」という仮説を検証しています。 ・結果: 同一文書の再出現(完全一致重複)を許容した全ての条件で、ランダムサンプリングと比較して総合スコアが低下しました。 ・意味: 品質分布の変化とは独立して、完全一致重複の導入そのものが性能劣化に繋がる可能性が高いです。高品質な同一文書の反復学習による効果よりも、重複排除(Deduplication)の恩恵の方が大きいと言えます。 【分析3:文書難易度に基づく選別の限界】 非ネイティブにとっての「読みやすさ(難易度)」を基準にした分布操作も検証されました。 ・結果: 難易度分布を操作した条件はいずれもランダムサンプリングの性能を上回らず、全タスクで性能が低下しました。特に難易度の低い(読みやすい)分布に偏らせると、一般知識タスクの性能が大きく低下しました。 【まとめ】 日本語LLMの事前学習において、特定の品質指標(教育的スコアや難易度)に基づく単一指標への過度な依存や極端なキュレーション、高品質データのアップサンプリング(重複許容)は、総合的な下流タスク性能にとって悪影響を与える可能性があるという結論です。 「極端にスコアが低い低品質データのみを除去し、あとは分布比を保ってランダムサンプリングする」アプローチが、全体的な性能を最大化する上で最も有効である、という内容でした。
3
434