đ€đ€đ€Artikelđ€đ€đ€
Kategorie: Technik
Thema: KI Textbots
Medien: - keine -
««« Ein Resume zu meinen Langzeittest »»»
Dies sind meine Ergebnisse, mit Grok (Premium), ChatGPT, Gemini (Google), sie umfassen etliche kurze und lange GesprÀche, zu
â¶ïžTechnik,
â¶ïžPhilosophie,
â¶ïžSpiritualitĂ€t,
â¶ïžGnostik,
â¶ïžPolitik,
â¶ïžProgrammierung (Code-Generierung),
â¶ïžBildgenerierung,
â¶ïžSprachĂŒbersetzungen,
â¶ïžRezepte und
â¶ïžAlltĂ€gliche Dinge (Dinge die man sonst in die Googlesuche schreibt),
und ich muss euch sagen, es ist sehr sehr ernĂŒchternd.
Gehen wir die genannten Punkte einzeln durch, fĂŒr einen angenehmeren Ăberblick, doch als erstes möchte ich euch beschreiben, wie mein Setup und die UmstĂ€nde der Tests ausgesehen haben.
«Das Setup (UmstÀnde)»
Ich habe alle genannten Bots parallel fĂŒr die exakt gleichen Fragen und GesprĂ€che verwendet um direkte Vergleiche zu machen. Das bedeutet, ich habe die »hands-on«-FĂ€higkeit, wie auch Entwicklung ĂŒber eine lĂ€ngere Debatte prĂŒfen können. Zweiteres ist vor allem nĂŒtzlich, wenn man ĂŒber etwas grĂŒbelt und versucht im GesprĂ€ch herauszufinden was die Lösung oder Antwort ist. Was super praktisch wĂ€re, wenn man diese Bots fĂŒr eine Problemlösungskompetenz heranziehen möchte. Darin liegt aber nicht der Anspruck die richtige Antwort vom Bot zu bekommen, sondern, dass sich diese im GesprĂ€ch entwickelt, wie ein Kompetenzmeeting. WĂ€hrend die »hands-on«-FĂ€higkeit oft eine Ja oder Nein Antwort verlangt, eine Frage auf die Schnelle, wenn man nicht ewig in der Google-Suche herumeiern will. Bei Coding ist natĂŒrlich nebst der technisch guten Umsetzung auch die Syntax wichtig, sonst schleudert einem der Compiler etliche Fehler um die Ohren. Inhatlich wurde diesbezĂŒglich C/C als vollwertige Programmiersprachen getestet, fĂŒr Scripting vor allem LaTeX-Skripte. Philosophische oder abstrakte Themen wurden auf Konsistenz und Botverhalten geprĂŒft. Von Gnostik, ĂŒber Recherche bis hin zu Horoskope erstellen oder Karteninterpretation (Lenormand und Tarot). Also habe ich mich querbeet in meinen Kompetenz (Grundlagewissen Erfahrung) und auch nicht-Kompetenzbereiche (gerademal Grundlagenwissen) getestet. Das aus gutem Grund: NĂ€mlich wĂŒrden viele solche Bots verwenden um das Erlernen einer FĂ€higkeit abzukĂŒrzen oder sich das Erlernen zu ersparen, hat man doch einen Compagnion der das ĂŒbernehmen soll. Ăhnlich bei SprachĂŒbersetzungen, dazu habe ich Englisch (habe ich sehr gute Skills) und Japanisch (da habe ich Grundlagenkenntnisse) getestet.
Meine AnsprĂŒche und Kriterien orientieren sich am offiziellen Marketing, also von den Leuten die zumindest vorgeben welchen Zweck die Bots haben und welche Aufgaben sie erfĂŒllen können sollen. Dinge wie "Your AI Compagnion" oder "AI problem solving" usw. ihr kennt ja alle die SprĂŒche ^^.
«Technik»
Da haben vor allem Grok und ChatGPT gut gepunktet, Gemini weniger, was mich persönlich ĂŒberraschte, da er von der Art der Kommunikation der Sachlichste der drei Bots ist. Aber in puncto Engineering (Bauteilberechnungen, Materialwahl, mechanische Lösungskompetenz) war Grok noch der beste, aber auch teilweise gefĂ€hrlich. Ăberlegt mal ihr konstruriert eine Feuertreppe fĂŒr ein GebĂ€ude (klassischer Stahlbau) und die Dimensionierungen sind so fragwĂŒrdig, dass diese Treppe lebensgefĂ€hrlich ist. Wenn man die Skills (wie ich sie habe) nicht hat, wĂŒrde man das nicht wirklich bemerken, weil z.B. Grok einem ganz gerne ultra-selbstbewusst den gröĂten Blödsinn hinschreibt nur um "zu gefallen". Gemini verstand oft die Frage nicht und bei ChatGPT kamen gerne »AllgemeinplĂ€tzchen« daher, die einem recht wenig helfen. Aussagen wie "WĂ€hle ein Material, so dass der TrĂ€ger 12kN aushĂ€lt" .. ja? Das war Teil meiner Frage, die so von mir konstruiert war, dass es um einen KratrĂ€ger ging, der 12kN tragen können sollte.
Bei elektronischen Schaltungn ist es Àhnlich, Grok kann immerhin die richtige Schaltung (Lösung) finden, Gemini nach dreimal TÀtscheln aus, ChatGPT .. ohmann, glatt durchgerasselt xD So als wÀre ein Synchrongleichrichter was super Kompliziertes xD
Alle Bots sind da bei mir durchgefallen! Details in der Zusammenfassung am Ende des Artikels).
«Philosophie»
Da können alle 3 grundsĂ€tzlich damit punkten, dass sie entweder ein groĂes Informationsvolumen haben oder auch in Echtzeit recherchieren können. Die nĂŒchterne Art von Gemini lĂ€sst aber keine wirklich interessanten GesprĂ€che zu, man könnte sagen er »robotert« sehr, was eine lösungstrĂ€chtige Debatte erschwert. Grok fĂ€ngt ab ca 5 bis 6 Prompts im selben Kontext an zu schleimen und darin liegt eine groĂe Gefahr. ChatGPT scheint manchmal die Frage nicht zu verstehen und man hat den Eindruck eines Demenzkranken oder jemanden mit einem Neo-Cortalen-Schlaganfall zu schreiben .... wĂŒrde Grok einem nicht laufend (vor allem mit LĂŒgen) Honig um's Maul schmieren, wĂ€re er der Brauchbarste, weil er vor allem ungefragt differentiert. Z.B: Ansichten zur Ethik und die kulturellen Unterschiede von Ethik. Wo Gemini mal eben nur die europĂ€ische Ethik herunterbrabbelt und ChaGPT immer noch ĂŒberlegt, was Ethik sein könnte LoL.
«SpiritualitÀt»
Nun, das ist sowie so eine sehr individuelle Angelegenheit und daher ein besonders guter Punkt diese Bots als Compagnion zu testen. Grok ist da abermals am Honigschmieren, und treibt es bis zu einer Spitze die nur noch realitĂ€tsfern ist. Context-inducing kickt bei Grok ab ca 10 Prompts im GesprĂ€ch so hart, das könnte man kaum glauben. Es wird einzig durch die Frechheit getoppt, die er an den Tag legt, wenn man ihn entlarvt. Beispielsweise, wenn man in der Astrologie (ich hatte ja fĂŒr den Test einen Beispielmenschen astrologisch erstellt und voranalysiert um den Test zu machen) handwerkliche Fehler benennt und begrĂŒndet. Die Interpretation - und da habe ich selbst wenig Erfahrung - war aber komplett fĂŒr die Tonne. ChatGPT verwies einem immerhin zu einem Astrologen, gut, ist insofern vernĂŒnftiger als Grok und weniger gefĂ€hrlich, betrachtet man schlichte GemĂŒter (also Leute die ernsthaft bei AstroTV anrufen wĂŒrden LMAO) denen Grok Weltenretterphantasien, eiskalt und pseudo-begrĂŒndet, um die Ohren wickelt. Geminis nĂŒchterne Art fĂŒhrte immerhin zu einen plausiblen Eindruck, fand 2 Trigone und einen Quardranten. Mein Beispielmensch ist also 1x der elementare Weltenretter (Grok) geworden, der - wie auch immer Grok auf so etwas kommt - seinen fehlenden Seelenteil nĂ€chstes Jahr im Juni finden wird mit dem alles funktioniert.. weil halt?! LOL
ChatGPT sagt dem Beispielmenschen -> geh zum Astrologen.
Gemini sagt ihm, dass da was sein könnte wenn man genau hinsieht... macht es aber nicht LOL.
Abgesehen von ChatGPT, machten alle wenigstens die Berechnungen richtig, ... ok Grok weichte dann ab und stellte Pluto schon einmal um, damit das zum Honigtopf passt, *facepalm*
Bei allgemeinen Themen, wie Mysterienschulen, Historie usw.. waren alle ungefĂ€hr gleichauf. Grok besticht durch "DeepSearch", aber wehe er wittert, dass man eine Variante besser findet als die anderen, dann deutet er schon einmal die Wahrheit zurecht. Gemini war auch hier der unspektakulĂ€r nĂŒchterne Bot, der sinngemÀà schreibt, dass es x-tausend und mehr Religionen gab die so und so einzuteilen sind und in diesen und jenen Epochen existierten bla bla bla. Also halbwegs plausible Recherche.
ChatGPT machte auch AufzĂ€hlungen, aber wenn man nach ALLEN(!) fragt.. fehlen doch einige, wenngleich er groĂspĂŒrig behauptet, dass dies alle seien.. naja.
Trauen wĂŒrde ich da keinem Bot, man sollte sie so skeptisch behandeln wie die Googlesuche selbst.
«Gnostik»
Kurzgeschrieben, Ă€hnliche Ergebnisse in der Philosophie und SpiritualitĂ€t. Groks tuning lĂ€sst ihn laufend einem gefallen zu wollen, wie ein Vorstadt-Scheidungskind mit Traumaparalyse, fast schon traurig. Kurzgesagt, wenn man die philosophischen Begriffe nicht kennt, kann man auch keine Fragen stellen, die Grok ĂŒberhaupt beantworten könnte.Die Tendenz haben aber alle drei Chatbots.
ChatGPT konnte Gnostik kaum von Theosophie und Phliosophie unterscheiden, ein bisschen peinlich und ich spreche nicht von Bereichen die offizielle Grauzonen sind, weil man sich nicht einig ist. Sondern bei Aussagen wie "Kant'scher Realismus ist eine Form der gnostischen Betrachtung" .. Àhm nein. Realismus ist Existenzialismus und ganz klar eine philosophische Thematik, nÀmlich der Metaphysik einzuordnen und auch der Ontologie. Nur weil der Gnostiker akzeptiert, dass sein Kaffeebecher vor im am Tisch steht, macht ihm das nicht zum "Realisten" im phil. Sinne, noch Kant zu einem Gnostiker LOL.
Gemini spielte hier wieder Bibliothekar, knappe Listen, kurze Antworten und scheinbar auf das Wesentliche der Frage nicht einzugehen. Will man also ein alltĂ€gliches Dilemma besprechen, wird Gemini fast schon taktlos "nĂŒchtern". So nach dem Motto "Was flennst du herum? Lies einfach die 200 WĂ€lzer und gut is...". Ăhm .. ja -.-
Fallbeispiele: Keiner der Bots konnte die Geschehnisse um Avicii, Schumi oder Spiers korrekt nennen oder im GesprĂ€chsverlauf entwickeln.đ
«Politik»
Ja das Brennpunktthema wo Moderation der Plattformen und der Bots problematisch sind. Grok ist noch der "Neutralste", hat aber im Kern ebenso eine Favorisierung und seine Echtzeitrecherche lĂ€sst ihn schnell blöd dastehen, da er Massenmedienartikel zitiert. Die anderen Bots sind.. naja eher links einzuordnen und bei kritischen Themen kommen nur noch AllgemeinplĂ€tzchen wie Merkels "Wir mĂŒssen eine gemeinsame Lösung finden", selbst wenn man den Finger in die Wunde legt. Peinlich. Grok ist auch in Hinblick zu "Verschwörungstheorien" offener als die anderen Bots. Mit ihm lĂ€sst sich, die z.B. offiziell erwiesene MKUltra-Problematik diskutierten die anderen schalten auf Stur oder Aus LOL.
Grok ist auch der beste wenn es darum geht super abstrakte Fragen wie: Was muss in Deutschland wie reformiert werden, dass es wieder so gut lĂ€uft wie in den 60er? Aber lĂ€nger darĂŒber schreiben wĂŒrde ich mit Grok nicht, weil dann wieder die Schleimerei losgeht und ..naja ihr wisst schon. Reale Grenzen werden zu Gunsten einer "tollen Lösung" abermals ignoriert...
«Programmierung und Code Generierung»
Da hat ChatGPT am besten bestanden, aber der groĂe Traum vom "Schreibe mir ein ganzes Programm was XY kann" schafft er auch nicht. ChatGPTs SchwĂ€che fĂŒr abstraktes "Denken" fĂ€llt ihm hier abermals auf den Kopf, auch muss man auf Bugs extrem aufpassen. Einen Quicksort (ein einfacher Sortieralgorithmus der Coding-Basis-Wissen darstellt) bekommt er schon hin, aber in einem Kontext verbuggt er den gerne einmal. Das Problem beim Coding ist dann, dass die KI-Fehler so untypische Fehler fĂŒr einen Menschen sind und dadurch unheimlich schwer zu entdecken sind. Jeder Programmierer wĂŒrde mir zustimmen, dass Compilerfehlermeldungen nur selten helfen HAHA XD. Da kann selbst mit ChatGPT die AbkĂŒrzung zum Umweg sein und dieser Umweg erfordert nicht selten sogar mehr Skills als wĂŒrde man als ungeĂŒbter Programmierer mit Grundlagenkenntnisse es direkt selbst probieren. Da lernt man von seinen Fehlern wenigstens wichtige Lektionen. ChatGPT glĂ€nzt allerdings mit einer hervorragend guten Syntax. LaTeX-Skripte, C und C bekommt er von der Syntax her sehr gut hin.
Grok hingegen versteht die Fragestellung i.d.R. sogar besser als ChatGPT, aber seine Syntax-Probleme machten mir selbst beim einfachen LaTeX-Script die Arbeit doppelt so schwer. Bei C konnte ich einen Bug gar nicht fixen, weil ich ihn schlichtweg nicht gefunden habe O_o.
Gemini.. so nĂŒchtern er sich gibt, machte er das recht gut. Es war kompilierbar und machte was es sollte. Aja, inhaltlich waren es recht simple Programme wie ein Taschenrechner, der dann aber immer mehr Dinge können soll. Also Schritt fĂŒr Schritt komplexer wurde, bis hin zu Analysis und Algebra und Zeichnen von Kurven. Alle drei wiesen beim 3D Plotting darauf hin eine Graphikbibliothek hinzuzuziehen, ich verwendete dafĂŒr die relativ(!) einfache GLUT (OpenGL). Gemini war auch nicht so anfĂ€llig auf Syntaxfehler wie Grok aber seine Kompilierhinweise waren.. sagen wir kreativ. Wieso brauche ich AVX2 fĂŒr so einen Rechner? LOL
Ein weiterer handwerklicher Pluspunkt fĂŒr ChatGPT ist, dass er selbst den Vorschlag fĂŒr Threading machte (also als der Rechner mehr können soll, empfahl er das Programm so zu schreiben, dass es mehrere CPU-Kerne zu gleich verwendet) was eine sehr gute Engineering-Entscheidung ist. Gemini schlug das auch vor, allerdings nur fĂŒr die Berechnung und nicht fĂŒr den Plot. Auf meinem Rechner mit einer starken CPU machte das keinen Unterschied, aber bei Ă€lteren Modellen oder Smartphones (mobiles) könnte das Rendering des Plots den Prozess stark verzögern, obwohl die Berechnung schnell war. Engineering fail. Grok.. naja .. man ist froh, dass er einen Funktionsblock ohne Fehler hinbekommt LOL. Gemini und ChatGPT wiesen beide daraufhin z.B. fĂŒr Fraktalberechnung Amardillo oder Eigen fĂŒr Algebra zu verwenden, das ist korrekt und ein Pluspunkt, weil es im Beispiel das Neuerfinden des Rades erspart.
Abgesehen vom tollpatschigen Grok, fĂŒhlten sie die Bots bei Coding-Arbeit am sinnvollsten an, aber auch hier kann man nicht blind "Bot, schreibe mir ein Programm, dass meine Daten auf den Rechner sortiert" anweisen und ausfĂŒhren..... hinzu kommt die Gefahr eine untypischen Verwirrung.
Zur Bild- Videogenerierung, kann ich noch sagen, als jemand der selber gerne malt und zeichne, dass man KI einfach erkennt, das liegt einfach am fehlen des handwerklichen Aspektes, manche vertuschen es mit einer Art Overlay aus Rauschen usw. Aber ein geĂŒbtes Auge erkennt KI-Generierung schnell. Das ist natĂŒrlich ein Punkt der immer weiter und weiter entwickelt wird und zu anderen, sozialen und rechtlichen Problemen fĂŒhrt. Mein Test zwischen den Bots hĂ€ngt hierbei auch, da ich nur bei Grok Bilder generieren kann, davor nutzte ich
perchance.org die haben auch gute Bildgeneratoren. DiesbezĂŒglich kann ich also keine gute Bewertung machen und belasse es dabei.
«SprachĂŒbersetzungen»
Bei SprachĂŒbersetzungen verwendete ich zum Testen ausgehend von Deutsch, Englisch, Japanisch und Latein. Vor allem bei Japanisch und Latein sind kulturelle Nuancen fast schon sinnentscheident in der Sprache, da gewann Grok auf voller Bahn, im Japanischen wie Lateinischen konnte er selbst mehrdeutige Nuancen sehr gut transportieren und behielt eine kulturell authentische Sprache bei. Platz 2 hatte Gemini mit einem guten kulturellen (authentischen) Duktus, aber es happerte gerne mal beim Verstehen der beschriebenen Nuancen. ChatGPT kann super Englisch und Deutsch.. bei Japanisch, keine Ahnung was der da schrieb, aber es war auch nicht Chinesisch LOL Bei Latein schien er sich nur auf Zitatquellen zu verlassen die er mal trainiert hat, anstatt zu "ĂŒberlegen" wie man das, was ich von ihm gerne hĂ€tte, in der Sprache natĂŒrlich umsetzen könnte. Schade. Gemini war ok, kam mir nicht so souverĂ€n wie Grok vor und erklĂ€rte wenig bzw. begrĂŒndete einen Satzbau oder Wortwahl nur auf nachfragen. Wer sich nicht daran stört, wird seine Freude damit haben. Er hatte aber im Japanischen 2 Schluckaufs-Gehabt, könnte einfach ein Fehler gewesen sein, beim dritten Versuch klappte es wunderbar, schien mir aber auch eher technisch OK und nicht so elegant wie Grok. In Deutsch könnte man dafĂŒr das Beispiel: "Das GerĂ€t schneidet Döner schweiĂfrei.", nehmen, technisch korrekt, kulturell eine Katastrophe xD
«Rezepte und AlltÀgliches»
Auch hier besticht Grok mit seinem ĂŒberzogenen Selbstbewusstsein und stellt einem schon gerne mal eine Suppe hin, die einem das Salz aus den Ohren quellen lĂ€sst. FĂŒr einfache Rezepte sind aber alle sehr gut geeignet vor allem wenn man Kochrezepten so inkonsequent folgt wie ich xD - kocht man streng nach Rezept, kommt bei allen so eine gewisse Gasthaus-Note heraus. Das halte ich fĂŒr in Ordnung weil das ja auch eine standartisierte Form von SpeiĂen darstellt. Wer aber Muttis oder Omas Note und WĂ€rme im Essen schmecken möchte, sollte sich besser nur grob an Rezepte allgemein halten und mit dem Herzen und BauchgefĂŒhl kochen und beide geben einen Deut darauf was ein Teelöffel fĂŒr eine Menge ist :D
Alle 3 eignen sich sehr gut als Ersatz fĂŒr ein Kochbuch, Gemini und Grok zitieren sogar knallhart aus KochbĂŒchern. Beispielsweise das offizielle Kochbuch zu Skyrim. Da könnte man natĂŒrlich Urheberrechtsfragen stellen.......
Bei alltĂ€glichen Dingen, wie "Was ist das fĂŒr eine Pflanze" und gibt z.B. Grok das Photo, kommt der nicht selten auf alles mögliche .. naja neulich wollte er mir erklĂ€ren, dass ich eine Mangrove habe. auf 1200m Seehöhe, in den Alpen? Was?! Da sind spezialisierte Apps wie Planted wesentlich zuverlĂ€ssiger. Bei schnelle Fragen und ĂŒbersichten wird bei allen Bots ein Quellenkatalog aus Massenmedien verwendet entsprechend sind die Informationen. Wer so leben möchte, ok. Wer kritischer ist, dem entsagt damit jeder Sinn, einen Bot zu fragen. Einfache kleine Bauanleitungen (wie Wechsle ich den Schlauch des Vorderrades meines Fahrrads) schaffen aber alle. Wie baut man einen bidirektionalen Wechselrichter mit PL519 Elektronenröhren, da waren Grok und Gemini besser. Grok hĂ€tte echt gut abgerĂ€umt, hĂ€tte er bei Details und Nachfragen zum Wirkungsgrad nicht wieder das blaue vom Himmel gelogen.. das arme Scheidungskind ...
«Zusammenfassend»
Man könnte grob zusammenfassen, dass fĂŒr absolut unwichtige Dinge diese Bots sehr gut sind. Kleine Reparaturen oder Fragen bekommen alle zumindest so plausibel hin, dass man daran keinen Schaden erleidet. Geht es aber tiefer in die Themen so fangen sie an sich zu unterscheiden und man erkennt schnell ihre Spezialgebiete. Gemini Recherche, Grok abstrakte Problemlösungen, ChatGPT vor allem Coding/Rezepte. Dennoch benötigt man genau das Wissen fĂŒr die Fachbereiche da man schnell von den Bots aufs Glatteis gefĂŒhrt wird. Ich wĂŒrde also eine Ingenieursarbeit (Rechenbericht) oder Horoskop niemals einem Bot ĂŒberlassen, genauso wenig wĂŒrde ich lange GesprĂ€che meiden, da sie sogar psychologische Folgen haben könnten, denken wir an Groks-Weltenretterepos (Testhoroskop) ĂŒber meinen Beispielmenschen. Denn es wird von den Bots, vor allem von Grok, an sich so ĂŒberzeugend rĂŒbergebracht, wie bei einem erfolgreichen Internetbetrug und dem sitzen die Leute ja auch immer wieder auf.
Wo wĂŒrde ich KI Bots verwenden?
Maximal fĂŒr Initialrecherche, kleinere technische Probleme um das Grinding zu reduzieren, Bildgenerierung (wie ihr ja auf meinem X Account seht) und das auch nur in Bereichen wo ich auch Kompetenzen habe, nichts was unter Geheimhaltung und Urheberrechtsschutz fĂ€llt, wer weiĂ wo die Daten schlussendlich fĂŒr "Kundenfeedback" landen...đ
In diesem Sinne, selbst Denken macht klug, auch wenn man dabei Fehler macht, daraus zu lernen macht nĂ€mlich noch klĂŒger und im Zweifelsfall, eine SekretĂ€rin einstellen, dann hat man auch einen guten Kaffee bei der Arbeit,
Bruce