Als je als TNO, GPT-NL competitief kan maken mbt end2end taken (van Q/A tot tooling gebruik) binnen de klasse van 20 miljard parameter modellen, dan ja, zeker.
Maar de voornaamste "deliverable" van GPT-NL is denk ik het formaliseren van processen voor AVG-proofing en wat ook zou helpen, is maar een suggestie; een bonafide online marktplaats voor vrijgegeven trainingsdata.
Het had normaal moeten zijn, maar er is jarenlang verzaakt om te handhaven. Ik zag in de Nederlandse context dat Gigacorpus offline was gehaald door een cease-and-desist van BREIN, een soort spuit11 actie om goedbedoeld vrijwilligerswerk om zeep te helpen. Ondertussen zijn de modellen van grote spelers, tot aan Mistral in Parijs, gebouwd op corpora die een veelvoud aan GigaCorpora voorstellen.
Ik denk dat we liberaal om moeten springen met het handhaven van copyright voorzover het gaat om niet-commerciële projecten om in ieder geval de open source gemeenschap van Nederland niet in de kiem te smoren, en dit is denk ik uit het oogpunt van fair-use ook goed te verdedigen.
Ik denk dat het "goed willen doen" nastrevenswaardig is en het uitgangspunt zou moeten zijn, maar ik zou zeggen "perfect is the enemy of good". De realiteit vraagt denk ik om een handhaving die zowel het algemeen belang (van snelle ontwikkeling van AI) als de specifieke rechten van copyright-houders op een redelijke manier tegen elkaar afweegt.