Bon du coup update :
Le modèle AFM 3 Core (le plus léger, à 3B) est effectivement dans la RAM en permanence, il est considéré comme faisant partie de la mémoire système, une partie de la RAM utilisée par le système (isolée de manière virtuelle puisque la RAM est unifiée), et donc les apps ont bien moins de RAM disponible (évidemment ça a toujours été le cas, il y a toujours eu une partie mémoire système, mais pas à une telle proportion), à priori ça ne devrait pas vraiment affecter les perfs puisque les iPhone récents ont bien plus de RAM que nécessaire, sauf peut-être pour le chargement de modèles tiers dans des apps comme Locally AI (le modèle d'Apple ne se décharge pas donc forcément ça limite la RAM qu'on peut allouer à un modèle tiers)
Le modèle AFM 3 Core Advanced est bien plus gros que le précédent, bien trop pour être chargé entièrement dans la RAM (c'est un modèle 20B), donc le modèle reste en mémoire flash (le stockage), mais comme c'est une sorte de MoE (revisitée par Apple, avec une décision par prompt et non une décision par token, sinon trop lent), on charge uniquement les experts nécessaires à chaque prompt dans la RAM (entre 1B et 4B), mais pour éviter une trop forte latence il y a toujours un minimum d'experts "globaux" chargés en RAM en plus d'AFM 3 Core, ce qui doit faire pas mal de RAM bouffée d'office par les modèles de fondation donc (même si ça dépend de comment ils ont quantizé tout ça, mais je trouve aucune info là -dessus)