Release 3 of the Soynade Open Source Month.
Oolel-Voices: a speech generation model supporting voice cloning with expressive, modular control over tone and pace, making it suitable for content creation.
Try it now: huggingface.co/spaces/soynad…
Model: huggingface.co/soynade-resea…
We are releasing Oolel-Corrector, a new model in the Oolel family trained to fix non-standard Wolof orthography as commonly written on social media.
The model is available on Hugging Face.
huggingface.co/soynade-resea…
We're releasing a dataset of non-standard Wolof orthography. The goal is to help models understand Wolof as it's actually written online, not just as it should be.
Dataset: huggingface.co/datasets/soyn…
We're releasing a dataset of non-standard Wolof orthography. The goal is to help models understand Wolof as it's actually written online, not just as it should be.
Dataset: huggingface.co/datasets/soyn…
4e publication du mois de l'open-source de Soynade.
Oolel-Embed: un modèle permettant de récupérer des documents directement à partir de la parole, sans passer par des étapes intermédiaires coûteuses de reconnaissance vocale et de traduction.
Model: huggingface.co/soynade-resea…
Oolel-Embed est efficace grâce aux représentations Matryoshka, permettant de représenter l'information dans des espaces vectoriels très petits.
Voyez Oolel-Embed en action:
Release 3 of the Soynade Open Source Month.
Oolel-Voices: a speech generation model supporting voice cloning with expressive, modular control over tone and pace, making it suitable for content creation.
Try it now: huggingface.co/spaces/soynad…
Model: huggingface.co/soynade-resea…
Release 2 of the Soynade Open Source Month.
A small foundational speech representation model for Wolof, continued pretrained from Meta/HuBERT on 860 hours of Wolof speech. This improves the ASR performance using only unlabeled speech data.
huggingface.co/soynade-resea…
Continued pre-training allows us to be more compute-optimal than Orange's model while significantly outperforming the base Meta/HuBERT-Base model.
We release the ASR fine-tuned model along with 100 hours of clean Wolof ASR data.
Models and dataset here:
huggingface.co/collections/s…
Today we kick off Soynade's Open Source Month, four weeks of releasing models, datasets, and tools for African languages.
Learn more: soynade.ai/research/soynade-…
The first release is live:
→ AfVoices-Translated: 200k Bambara-English speech translation dataset with acoustic tags.
Oolel peut voir des images et vidéos : un vision LLM ouvert pour le wolof.
Et il n’a été entraîné sur aucune donnée visuelle en wolof !
On explore des pistes de recherche pour transférer les capacités multimodales d’une langue à une autre, sans entraînement multimodal direct.
Ce qui permettra d'avoir des capacité multimodales pour les langues africaines à moindre coût 💸
Stay tuned! On a plein de modèles ouverts qui arrivent.
𝐎𝐨𝐥𝐞𝐥-𝐒𝐦𝐚𝐥𝐥-1𝐁: On-device AI for Wolof with a Lightweight Language Model
🚀 Meet Oolel Small, the lighter version of the Wolof LLM Oolel - bringing on-device AI to Wolof speakers. You can run it locally without any internet connectivity
It has been optimized for essential tasks like natural text generation in Wolof and English, translation, and RAG capabilities, while maintaining a compact size.
Petite expérience intéressante que vous pouvez reproduire : générer du texte avec notre LLM 𝐎𝐨𝐥𝐞𝐥 et le vocaliser à l’aide du modèle Text-to-Speech de @galsenai.
La combinaison de ces deux modèles open source ouvre la voie à de nombreux cas d'usage : création de contenus audio, assistants vocaux, etc. Les prochaines versions d'Oolel intégreront directement des capacités vocales.
En attendant, vous pouvez d'ores et déjà combiner ces deux technologies. C'est la beauté de l'open source - des innovations qui se complètent pour faire avancer les technologies pour les langues sous-représentées.