In der aufregenden Welt der künstlichen Intelligenz gibt es seit einigen Wochen ein neues Buzzword: KI-Modelle, die besonders auf das Reasoning fokussiert sind. OpenAI o3, DeepSeek R1 und Gemini 2.0 Flash Thinking sind die aktuellen Stars der Branche. Sie sollen komplexe, mehrstufige Aufgaben besser lösen als die klassischen Transformer-KI-Modelle. Besonders nützlich soll das in Anwendungsbereichen wie Mathematik, Recht oder Finanzen sein.
Reasoning-Modelle sind so stark, weil ihre Denkleistung der des Menschen noch ähnlicher ist als bisher. Sie haben die Fähigkeit, Aufgaben selbstständig in mehrere Schritte zu zerlegen und diese nacheinander zu bearbeiten. Dadurch können sie Informationen verknüpfen, auf vorherige Erkenntnisse aufbauen, sich selbst überprüfen und ihre Antworten anpassen. Im Resultat sollen diese KI-Modelle zu tieferen, fundierteren Antworten kommen.
In unserem Whitepaper „So unterstützt künstliche Intelligenz die Technische Redaktion“ haben wir u. a. Tipps zum besseren Prompting zusammengestellt. Einige davon zielen darauf ab, klassische KI-Modelle genau zu diesem Verhalten zu bringen: Schritt für Schritt tiefer ins Problem einzutauchen und dadurch bessere Ergebnisse zu erzielen. Denn hier liegt eine ihrer Schwächen. Sie können sehr präzise Antworten auf einfache Fragen liefern, arbeiten im Wesentlichen aber sequenziell. Darum machen klassischen KI-Modelle eher Fehler bei der Kohärenz über längere Textabschnitte hinweg. Sie können keine tieferen Schlussfolgerungen ziehen oder getrennte Informationen verbinden.
Klassischen KI-Modellen muss man diese Art der Problemlösung gezielt als Anweisung mitgeben, den neuen nicht. Da liegen einige Fragen auf der Hand: Wie sehen gute Prompts für solche Reasoning-KI-Modelle aus? Sind sie nicht besser geeignet, um den Prozess der Dokumentation und das Erstellen von Anleitungen zu optimieren? Und natürlich auch: Werden die alten KI-Modelle dann nicht überflüssig?
Klassische KI-Modelle sind sehr leistungsfähig und besitzen auch Reasoning-Fähigkeiten.
Zunächst einmal: Die klassischen KI-Modelle wie die GPT-Modelle von OpenAI werden ihre Daseinsberechtigung vorerst sicherlich behalten, denn sie sind für die meisten Aufgaben im beruflichen wie privaten Umfeld leistungsfähig genug, liefern schnelle Antworten und sind günstig in der Nutzung. Auch unsere Data-Science-Experten setzen bei den meisten, auch komplexen Aufgaben auf das aktuelle GPT-4o-mini – mit sehr guten Ergebnissen.
Übrigens kann man auch nicht wirklich von KI-Modellen mit und ohne Reasoning sprechen. Dass ChatGPT so ein riesiger Erfolg war, lag auch an der Reasoning-Fähigkeit der KI. Wenngleich diese bei GPT-3 erst schwach ausgebildet war, wurde sie mit jeder Folgeversion verbessert.
Die Kosten steigen mit der Rechenleistung der KI.
Während die neuesten KI-Modelle mit Reasoning-Fokus beeindruckende Rechenleistung bieten, kann sich das in deutlich höheren Preisen niederschlagen. Die Betonung liegt auf „kann“. Die Wahl des richtigen Modells hängt von der Komplexität der zu lösenden Aufgabe ab, sprich: von der benötigten Leistung und den verfügbaren Ressourcen.
Aber was kostet denn die „Rechenleistung“ überhaupt? Dieser Vergleich aus dem OpenAI-Universum hilft bei der Einordnung: Das der breiten Öffentlichkeit zugängliche Modell mit Reasoning-Fokus ist o3-mini. Es kostet ca. 5,50 Dollar pro zwei Millionen Token (Text für Input und Output addiert). Eine Million Token entsprechen einem Text mit bis zu einer Million Wörtern (je nach Komplexität des Textes). Kürzere Texte sind dann entsprechend günstiger. Bei GPT-4o-mini (also das Modell ohne Reasoning-Fokus) kostet dasselbe nur 75 Cent. Das Modell mit Reasoning-Fokus ist zwar deutlich teurer, bewegt sich aber preislich für die Technische Redaktion in einem akzeptablen Rahmen. Für viele alltägliche Aufgaben und Dokumentationsprozesse sind Modelle wie GPT-4o-mini immer noch eine sehr kosteneffiziente Wahl.
Nach oben ist aber viel Luft. OpenAI gab im TechCrunch-Magazin im Dezember 2024 zu seinem neuen Reasoning-Primus o3 folgendes Preis-Statement ab: „The high-scoring version of o3 used more than $1,000 worth of compute for every task.“
Daran lässt sich erahnen, wie leistungsfähig das Modell o3-high ist. Aber … wir sind jetzt neugierig. Wozu braucht man das überhaupt? Fragt man ChatGPT (4o-mini), was man mit so einer Rechenleistung ganz praktisch anfangen könnte, äußert es folgende spannende Vorschläge:
- In Sekundenschnelle riesige Mengen an medizinischen Daten analysieren, um einen Impfstoff zu entwickeln und Vorhersagen zu seiner Wirksamkeit zu treffen.
- Sämtliche Umgebungsfaktoren analysieren und sofortige Entscheidungen treffen, um sichere selbstfahrende Autos zu ermöglichen.
- Alle Umweltfaktoren analysieren, die das Überleben einer Tierart bedrohen, wie Lebensraumzerstörung, Klimawandel oder Jagd, um daraus eine komplexe Schutzstrategie zu entwickeln.
Das klingt schon ziemlich fancy, aber in den üblichen KI-Einsatz-Szenarien in der Technischen Redaktion brauchen wir die immense Rechenleistung eines o3-high wohl eher nicht.
Ausblick: Wir testen KI mit Reasoning für die Technische Redaktion
Die Fähigkeit eines Reasoning-Modells, logisch zu denken, ist definitiv vielversprechend. Bei der Beantwortung einer technischen Frage zu einer Produktanleitung beispielsweise müsste es überlegen, welcher Kontext oder welche Details wichtig sind, und das in der Antwort automatisch berücksichtigen. Denkbar ist, dass ein solches Modell Informationen aus dem Text dynamisch miteinander verknüpft.
Ob das wirklich funktioniert? Werden die Ergebnisse von Reasoning-KI-Modellen qualitativ besser? Wird das Prompting einfacher, weil die Modelle weniger Kontext, Strukturvorgaben und Beispiele benötigen? Oder neigen diese Modelle doch zu stark zum „Overthinking“, besonders bei weniger komplexen Aufgaben? Was kommt wohl heraus, wenn die KI auf diesem Level noch ein bisschen dazu halluziniert? Und was, wenn wir die Stärken beider Modelle in einem Workflow kombinieren: Reasoning-Modelle für Planung und Entscheidungsfindung, GPT-Modelle für die eigentliche Ausführung der Aufgaben?
Das sind einige der Fragen, denen unsere KI-Spezialisten aktuell in verschiedenen realistischen Anwendungsbeispielen in der Technischen Redaktion auf den Grund gehen. Sie testen aus, was o3-mini hier wirklich drauf hat. Auf die Ergebnisse darf man sicher gespannt sein!
Haben Sie schon Erfahrungen mit Reasoning-Modellen in der Technischen Redaktion gemacht? Teilen Sie diese gern mit uns in den Kommentaren.
Möchten Sie mehr zum Thema KI in der Technischen Dokumentation erfahren, dann schauen Sie doch auf unserer Themenseite vorbei.