Guten Morgen zusammen, guten Morgen Thomas.
Guten Morgen zusammen!
Thorsten Gude, ja.
Wir haben heute eine etwas andere Episode.
Wir haben einen Gast dabei, aber er ist das Obligatorische.
Wir haben heute den 2.
November 2025 für Context, wenn das jemand später hört oder früher.
Ich warte auf jemanden, jetzt eine Zeitschmaschine hat, aber ich glaube, das passiert
nicht.
Genau.
Und zwar haben wir heute Thorsten Müller, besser bekannt als Thorsten Voice hier.
Und du darfst dich jetzt mal kurz selber vorstellen.
Mein Name ist Thorsten Müller, bin Südhesse geboren und lebhaft, Region Frankfurt und bin
ITler beruflich und aus Leidenschaft schon immer durch und durch und habe seit ein paar
Jahren eine große Leidenschaft für Sprachtechnologien.
und das hat mich schon, aber da kann ich euch gleich noch ganz viel, wenn ihr das alles
hören wollt, erzählen.
Das beschäftigt mich schon seit Kindertagen, aber ich glaube für die Einführung wäre das
erstmal zu viel.
Auf jeden Fall habe ich 2019 das Projekt Thorsten Voice gegründet und habe in diesem
Kontext meine Stimme, von der ich gleich sage, ich weiß wie ich klinge, ich bin kein
professioneller Sprecher und ja, es gibt deutlich angenehmere Stimmen als meine.
Auch dieses Feedback, dieses Konstruktive habe ich schon mehrfach bekommen, das weiß ich,
aber ich habe nur diese eine Stimme und die habe ich eben 2019 verschenkt.
unter der sogenannten CC0 Lizenz, damit andere, oder ich auch selber, zusammen auch mit
einem langjährigen Weggefährten Dominik Kreutz KI-Stimmen darauf trainiert haben und
trainieren und die eben als Open Source zur Verfügung stellen und zwar mit dem Anspruch,
dass sie eben ohne die großen Cloud-Abhängigkeiten und ohne Bezahl, ja, Barrieren laufen
und auf jedem Rechner privat zu Hause funktionieren.
Ich finde das Thema...
Wann hast das gemacht?
2019?
2019 ging es los.
Ich finde das gerade spannend, weil ich weiß jetzt nicht welcher irgendein Celebrity aus
den USA hat jetzt eine Klage gewonnen, weil jemand ihre Stimme genommen hat in einem
Werbevideo und dann hat sie jetzt Geld dafür bekommen, dies das jenes.
Das heißt, diese Dame oder ich glaube es war eine Frau, hat ihre Stimme gar nicht selbst
digitalisiert, so wie du.
Ich nehme mal ein bisschen mehr Aufwand.
Das heißt, es ist heutzutage relativ einfach mit einem kleinen Audioschnipsel, gerade wenn
du bekannt bist und deine Stimme sowieso.
Kino, Radio, auch immer präsent ist, dass es nur keine Chance gegen hast, dass Leute das
abgreifen und trotzdem einfach vorgegriffen haben und gesagt haben, ja hier ist meine
Stimme.
Am Ende des Jahres war das so ein schnelllebiges Feld, das heute noch State of the Art
ist.
Das ist in drei Wochen schon retro.
2019 war das noch bisschen anders.
war ja auch schon Machine Learning.
Das waren ja auch die ersten Text-to-Speech-Frameworks.
Das war damals Google mit Techajohn Version 1 und Version 2, die die technologische Basis
geschaffen haben, damit du auch Open Source KI Stimmen oder künstliche Stimmen, der KI
Hype kam dann erst ein bisschen mehr in den Fokus der Öffentlichkeit, trainieren konntest.
und für mich war das damals einfach so eine gigige Baustelle.
Ich habe euch schon gesagt, ich neige dazu, den Redelfluss zu verfallen.
dürft gerne, dass ihr auch offiziell noch mal hier auf der Aufnahme, ihr habt meinen
Segen, jederzeit zu unterbrechen.
Ich bitte sogar darum.
Nein, also der Punkt ist, ich hatte 2019
Interesse an diesen Smartspeakern.
nenne jetzt mal keinen Namen, weil der eine oder andere hört das vielleicht auf
Lautsprecher und dann triggert es irgendwelche Geräte an.
Aber wir wissen alle, wie die Geräte von Amazon oder Google oder auch Apple heißen.
Und ich fand das technisch total spannend.
Und jetzt vielleicht so ganz ein kleiner Ausflug in die Jugendzeiten des Thorsten Müller.
Also Techniken oder Serien wie Star Trek oder Night Rider.
waren damals so Jugendserien, die mich gefasziniert haben.
Mhm.
nicht weil die Story so deep war, weil einfach Menschen ganz natürlich mit Technologie per
Stimme interagiert haben und die Technologie auch mit Stimme eben reagiert hat.
Und da war das einfach der ganz natürlichste Weg.
ich Menschen interagieren per Stimme und dass die Technik eben mit auf diesem Level
agiert, das fand ich total faszinierend.
Und bei Knight Rider war das ja tatsächlich auch...
die haben das ja auch sehr kenntlich gemacht.
Du hattest ja immer diese...
diese...
diese...
diese...
diese...
diese...
diese...
diese...
diese...
diese...
diese...
diese...
diese...
diese...
diese...
diese...
diese...
diese...
diese...
Ich habe das als Kind geliebt.
total faszinierend.
Als Jugendlicher versuchte man mit Programmiersprachen zu programmieren.
Ich bin natürlich gnadenlos gescheitert.
Ich habe auch ein Mikrofon angesprochen und eine Audio-Wave bekommen.
Das waren natürlich jugendliche Spielereien.
Das jetzt auch vielleicht zur zeitlichen Zuordnung.
bin jetzt 47.
Also damals war die Technologie halt auch noch eine ganz andere, weitaus weniger
ausgereift, wie sie das heute ist.
ja, Rechenpower natürlich.
Was sich da jetzt die letzten zehn Jahre getan hat, ist Wahnsinn und davor, das ist ja
schon bisschen länger her als zehn Jahre deine Jugend.
Ach, Serie.
Ups.
Das Gute bei der Dame ist ja, die geht ja ständig an.
Das ist ja völlig egal, ob du sie nennst oder nichts, zumindest beim Kollegen Thomas.
noch habe ich nichts gehört was an der Richtung thomas das was vibriert hätte oder das was
irgendwie geklingelt hätte sehr gut und ich fand das total spannend auch weil eben diese
stimmen relativ also wie gesagt also wenn du heute nicht die original stimme von damals
hören würdest du auch sagen wo die klingt ja voll künstlich aber nach damaligem stand da
war das natürlich schon achtung game changer und da habe ich total fasziniert oder auch
dann eben als amazon
dass massentauglich mit dem Gerät steckt und mit der Technik Das fand ich total spannend,
hatte aber Datenschutzbedenken und dachte, möchte ich wirklich dieses
Mikrofon-Kombinations-Ding alles haben, was immer im Austausch mit Amazon ist, du hast
keine Transparenz, du weißt nicht, was da übertragen wird.
Amazon nicht ohnehin schon genug von mir weiß, ob es das noch ausmacht.
Aber das waren so Punkte, ich gesagt habe, ich hätte das gerne, aber ich möchte den ganzen
Datenschutzaspekt besser haben.
und das ist ja auch zu berechtigt.
Es gibt ja Vorfälle, wo dann halt Amazon Mikrofone genommen wurden in Gerichtsurteilen, wo
eigentlich gar keine Zustimmung für war.
also in USA zumindest, hier in Deutschland weiß ich keine Fälle.
Da ist definitiv was passiert.
Das weiß man.
Genau, und das waren so riesige und deswegen habe ich mich 2019 mal umgeguckt, es denn
nicht Open Source, irgendwas was Privatsphären respektieren, was du lokal auf so einem
Raspberry Pi oder auf irgendeiner kleinen Hardware betreiben kannst und bin damals auf das
Projekt Mycroft, das war eine US Firma, Mycroft AI, die gibt es mittlerweile nicht mehr,
die sind aber mit diesem Ansatz angetreten, eine Software und wurde aber auch Software und
Hardware Stack bauen, in dem Hardware Stack da sind sie...
Mmh.
Ich habe die Software erst mal installiert und auf Englisch war es auch so weit okay.
Auf Deutsch war es eine Vollkatastrophe.
Es ging gar nicht.
Es war schon sehr ernüchternd.
Aber habe dann gesehen, in deren Loco steht...
Du deine eigene Stimme nutzen, du die als KI oder als Text-to-Speech-Sprachausgabe-Stimme
haben willst, kannst du die eigene Stimme digitalisieren.
Da hat es den inneren Geek von mir sofort hart getroffen und gesagt, das klingt ja richtig
gut.
Bin aber ein bisschen zu optimistisch, wenn ich mal vorsichtig bin, rangegangen.
dachte, naja gut, dann wirst du dir irgendwie drei, vier Sätze aufnehmen und machst dann
irgendwie
Du eine super ausgereifte Software mit einer schönen Oberfläche, lädst das da hoch,
drückst dreimal weiter weiter fertig stellen, holst dir was zu trinken und dann hast du
eine tolle KI-Stimme.
Das war dermaßen weit weg von der Realität.
Also ich habe selten so falsch gelegen zwischen Illusion und Hoffnung und Wirklichkeit.
Also das Gap war riesig.
Also ich habe mich ein bisschen mehr in die Doku eingelesen und da stand dabei, es wird
schon empfohlen und das ist nur mal die Brücke zu dem was du gerade gesagt hast, dieses ja
heute kannst du ja mit
wenig Trainingsmaterial relativ gut, schnelle oh
Audio als Source.
Da hast du noch nichts gemacht.
Genau, dann hast du erst mal nur 16 Stunden und also ich meine ich muss euch nichts
erzählen.
Also 16 Stunden ist ein Haufen Audiomaterial und das ganze auch noch transkribiert, also
sprich mit einer passenden CSV Metadatendatei, wo du auch pro Satz hast und du kannst auch
nicht 16 Stunden einfach nur irgendwie reden, sondern ein Satz, eine Wav Datei, die in der
CSV textuell beschrieben.
Nächste Aufnahme und naja.
damals gab es ja noch nicht so viel KI, die das transkribieren könnte.
Und selbst heute, wir sehen es immer wieder im Podcast, ja...
Also mein Name hat sie noch nie richtig geschrieben.
Wir haben auch immer so Blopper drin wie Homo-Assistin.
Was hast du noch letztens gehabt?
interessant.
Diesmal muss ich es also nicht rausschneiden.
Nein, es ist wirklich sehr...
Also man merkt, dass es eine oft schlecht programmierte oder ein angelerntes Modell Also
Homo...
Irgendwas Homo-Zysten haben wir auch öfters mal.
Wir hatten auch andere anruchige Wörter des Letzten.
Deswegen war kurz der Gedanke beim letzten Mal da, nehmen wir es vielleicht komplett raus,
weil es kostet auch schon relativ viel Zeit, es nachzubearbeiten.
Mmh.
Und du musst immer wieder diese...
Aber nein, wir haben jetzt einen Disclaimer eingepackt.
Ich habe gesehen.
Es kommt nicht immer so 1 zu 1 perfekt raus.
Aber gerade wenn du das als Quelle nimmst, als Quelle der Wahrheit für ein
KI-Modelltraining, dann muss es halt passen.
Da kannst du sonst lernen, die KI war falsch, wenn du da Fehler drin hast.
Und damals war es so, hat die Firma Mycroft AI netterweise eine Software selber
bereitgestellt.
Das war damals Mimic Recording Studio.
Das war eine webbrowserbasierte Anwendung auf Container basiert.
Das heißt, du hast ein paar Container gestartet und kannst dann im Prinzip eine
Das System hat dir immer einen Satz im Browser angezeigt, den hast du aufgenommen und
wurde dann als Unique Identifier.wav-Datei gespeichert.
Das schon sehr komfortabel für die damaligen Verhältnisse, weil du nicht darum kümmern du
dann eine spezielle Speicher in die Datei ablegen und die Dateinahme benennen.
Du hattest im Prinzip eine CSV-Datei mit 20.000, 30.000 Sätzen.
Dann hast du den Browser aufgenommen, hast es wieder angehört, weitergeklickt, nächsten
Satz aufgenommen, weitergeklickt.
Da kannst du auch nicht so viel Meter machen, weil irgendwann wird die Stimme müde, du
kannst keine Aktion, die du an einem Tag abreißt, zu 16 Stunden rein das Audio aufnehmen.
Das hat mich in meiner privaten Freizeit an Abenden und Wochenenden fast ein halbes Jahr
gedauert, bis ich da irgendwie durch war.
kein Vergleich mehr, du heute an den Trainingsdaten weniger brauchst.
Aber damals eben war das so und da hast du das alles aufgenommen, aufgesprochen und ich
habe da muss ich sagen auch echt viele Fehler gemacht zu Beginn.
Also ich habe viel Lehrgeld bezahlt.
Also das kann man jetzt auf der Tonspur nicht sehen, aber tatsächlich die, die vielleicht
schon mal online gesehen haben oder im echten Leben wissen, ich habe keine Haare mehr.
Das liegt jetzt nur bedingt daran, dass ich viele Fehler bei den Aufnahmen gemacht habe.
Ich hatte auch schon vorher wenig Haare.
Also lange Rede, kurzer Sinn.
Ich wollte das ausprobieren und anfangen.
Ein Tipp war, benutze ein gutes Mikrofon.
Das war ein echtes Problem.
Ich hatte noch altes USB Headset auf dem Boden liegen und dachte, das ist doch super.
Ich damit aufgenommen und hatte die ersten 10.000 plus minus Aufnahmen gesprochen und habe
mir die alle angehört.
Ich dann versucht mit dem Takedron 2 von Microft eine KI-Stimme zu erzeugen.
Das Audio war nicht sauber genug.
Das war das Audio nicht sauber genug als Input?
Ich war ganz optimistisch und habe dann die 10.000 Aufnahmen in die Magic Box von KI Die
Ergebnisse waren enttäuschend.
Ich habe meine Stimme rausgehört, aber sehr vage.
Es war sehr viel Rauschen im Hintergrund, was die KI generiert hat.
war ein Pfeifen dabei.
Ich konnte meine Stimme hören.
Ich hatte damals keine GPU-Leistung, die KI-Training auch performanter als das
CPU-Training.
Da lief mein Rechner mehrere Wochen am Stück 7x24 auf 100 % CPU-Last, um überhaupt etwas
rauszupuzzeln.
ist natürlich heftig.
Und dann hast du noch Mist hinten raus.
Der Feedback-Zyklus ist nicht sonderlich interessant.
...
Ich habe dann in der Microsoft Community gefragt, ob ich einen Tipp was ich falsch Ich
dann ein paar Audio-Samples reingestellt und dann habe ich es gehört, in der
englischsprachigen Community viele deutsche Leute gab, gesagt haben, dass an der KI-Stimme
und die veröffentlichen.
Ich dachte, das eine lustige Baustelle.
Für mich privat, du deinen Smart Speaker vielleicht zuhause betreiben.
Also nicht, dass ich meinen eigenen Smart Speaker permanent mit meiner Stimme ist schon
ein bisschen merkwürdig im Alltag.
Aber vom Prinzip her war es nie gedacht, ich jetzt mal die Öffentlichkeit gehe.
Es war eher eine Privatbaustelle.
Hab dann aber gemerkt, es gab doch signifikanter Interesse.
Ich umgeachtet, wie ich klinge und wie die Qualität meiner eigenen persönlichen Stimme
ist.
die Leute hatten gesagt, es wäre schön, wir eine freie Open Source Stimme hätten, ohne
Internet und alles Restriktion läuft.
Und dann hatte ich aber auch Feedback bekommen.
Nicht musste ich tatsächlich darüber nachdenken.
zu dem Zeitpunkt war die Stimme auch noch in einer Qualität, die hätte ja auch keiner
nehmen wollen.
Und da habe ich jemanden kennengelernt, Dominik Kreutz, der mich da aber viele Jahre auch
seitdem
Ich habe ein paar Aufnahmen und er hat er richtig gute Aufnahme hat.
so gute Aufnahmen habe ich noch niemals gehört.
Und dann kam der so ein, zwei Tage später zurück und sagt, du Thorsten, also die meisten
kannst du wegschmeißen, vielleicht können wir ein paar noch retten, aber die meisten sind
Schrott.
Krass, warum?
Also was...
Ich kenne mich nicht so viel mit Audio aus, aber hat der was erklärt dazu oder...
klar, der hat gesagt, du musstest auf maximaler Lautstärke anhören.
so, wie schlimm, weißt du, die eigene Stimme sich regelmäßig anzuhören ist ja ich schon so
bisschen schwierig und dann noch auf maximaler Lautstärke auf dem Kopfhörer.
Und dann habe ich aber verstanden, was er meint.
Dieses USB Headset, was eigentlich für mich als Laie gute Qualität produziert hat, auf
gemäßigter Lautstärke, vielleicht auf Kopfhörer, nicht auf Lautsprecher und so, hat aber
wenn du es auf Maximum aufgedreht hast...
Genau dieses Rauschen, Pfeif-Töne teilweise auf der Audio-Spur.
Und die KI nimmt natürlich das als Eingangsmaterial, was sie kriegt.
Ich meine, während unser Gehirn vielleicht so Störgeräusche ausfiltern kann, weil es halt
weiß, was Stimme ist und was nicht hier dazugehört, die KI hat halt gedacht, oh, das
Pfeif, das muss ich generieren, weil das gehört ja, ja wichtig.
Genau.
das, ja, das war dann, ich sag's mal so.
diesen schönen Satz, auch wenn er jetzt nicht so family-friendly shit in shit out, ne?
Das war ein echter Downer.
Dann hat gesagt, ich kann versuchen, so Paar zu optimieren und kann so ein bisschen was
zum Tragen kommen.
Aber er hat angeboten, was zu machen.
Jetzt kannte ich den Typen gar nicht.
Er war ja so Typ aus der Community.
Mittlerweile haben wir uns schon öfters auch mal echtes Leben getroffen.
Glück, dass er wirklich ein sehr netter und sympathischer Kollege ist.
Aber das war das erste Mal, ich sagte, möchte ich jetzt...
einer fremden Person, die ich zu diesem Zeitpunkt kaum kannte, 10.000 meiner
Originalaufnahmen zur Verfügung stellen.
In Kombination mit der Frage, ob ich der Frage beschäftigt bin, bin
Ich will nicht, dass meine Audiodaten irgendwo übertragen werden, aus Datenschutzgründen
will ich mir kein kommerzielles Produkt holen, hin zu ich gebe meine Stimme als
Allgemeingut auf.
da muss ich tatsächlich ein, zwei Nächte auch drüber nachdenken.
Ja, kann ich mir vorstellen, weil dann, wir hatten es ganz kurz im Vorgespräch, dann
verlierst du im Endeffekt die Kontrolle, was positiv so wie auch negativ sein kann, weil
wenn du die verlierst, können ganz viele tolle Dinge damit gemacht werden.
Ich meine, das ist ja auch nichts anderes mit in der Open Source Welt mit Software.
Manchmal werden Tools wo eingesetzt wurden, denkst oh, das hätte ich ja niemals gedacht.
Oder in Unternehmen hat natürlich auch den großen Nachteil, dass das halt auch passiert.
Ich habe dann aber auch im eigenen Leid praktisch erlebt, es sich anfühlen kann.
Ich damals gesagt, dass ich das machen Ich bin Typ, vielleicht bin ich manchmal zu
optimistisch, aber ich will mir dieses positive Denken behalten, weil ich immer wieder
denke.
Ich glaube, wir als Menschheit, als Spezies, tolle, großartige Dinge bewirken können, wenn
wir uns gegenseitig vertrauen und wegkommen von diesem Misstrauen.
Wenn wir uns mal gegenseitig vertrauen, dann könnten wir gemeinsam etwas erreichen.
Mit diesem Mindset habe ich meine Originalaufnahme und die ersten KI Stimmen
Ich würde es auch heute im Jahr 2025 genauso wieder machen.
ich sehr viel Positives bekommen habe.
Die Art, die ich freigegeben habe, natürlich auch, mich muss keiner fragen.
Jeder kann meine Stimme benutzen, sowohl kommerziell als auch nicht kommerziell, ohne dass
er meine Erlaubnis dafür braucht.
Das macht es natürlich auch schwierig.
Natürlich freue ich mich immer, wenn mir jemand sagt, ich benutze eine Stimme in dem und
dem Projekt oder das hat mir da und da geholfen.
So freue ich mich, super.
Aber es muss ja keiner.
Das heißt, kann jetzt keine Liste nennen von Projekten, wo meine Thorsten Voice irgendwo
zum Einsatz kommt, weil ich sie schlicht und ergreifend nicht habe.
die würde auch nicht existieren in meinen Augen, wenn das eine Lizenz wäre, man dich erst
fragen muss.
Ja, denke ich auch.
ich glaube ja, ein paar Leute würden es machen, aber nicht die große Anzahl, es jetzt tut.
Ich würde es mir natürlich wünschen, wenn sie einen positiven Effekt hat.
Aber ja, das war mit der Hintergrund.
Ich habe dann natürlich überlegt, was passiert, wenn ich diese Stimme freigebe.
Die Stimme ist mit eines der persönlichsten Dinge, die wir eben haben.
dann sage ich, was passiert, wenn ich das tue?
Die Technologie entwickelt sich rasant weiter.
Vielleicht hast du irgendwann mal sprachaktivierten Zugang zur Wohnungstür oder
sprachaktivierten Zugang zu sensiblen Bereichen wie Online-Banking und so weiter.
glaube der Drops ist gelutscht.
Genau, das waren natürlich Momente, wo dachte, ok, bist du bereit, einen gewissen Komfort,
den die Zukunft möglicherweise bringt in diesem Umfeld, zu verzichten, weil deine Stimme
eben allgemein gut ist.
das war halt auch die paar Nächte, wo ich auch mal wach gelegen habe und habe das so
zwischen den Kopf gehen lassen, so pro- und kontra-mäßig und habe mich dann entschieden,
nee, ich bleibe dabei, positiv denken und das wird gut und ich mache das einfach jetzt
mal.
Und wie gesagt, ich würde das genauso wieder tun.
Und damals, das war ja wirklich noch vor dem ganzen LLM-Boom, bevor der, sagen wir mal
auch das Missbrauchspotential natürlich auf diesem Niveau war, wie es heute ist.
Wann genau hast du das rausgebracht?
hast gesagt 2019 kam der Gedanke auf, oder?
2019 habe ich angefangen, mit Microsoft zu testen und meine eigenen Experimente zu machen.
Im Oktober wurde es so, dass ich die Entscheidung getroffen habe, veröffentlichen.
Die Aufnahmen, ich glaube das war 2020, die ersten KI-Stimmen, die kann sich heute kein
Mensch mehr anhören, das war damals schon nicht gut und heute wäre es eine
Vollkatastrophe, wenn man das rein hört.
2020 wurden die ersten Sprachaufnahmen und KI-Modelle veröffentlicht.
Na ja, cool.
hatte ich ja auch dieses, ja ganz viel Positives, also es gibt so, ich fange erstmal mit
einem Negativbeispiel an, dann kann man so bisschen, man soll ja positiv...
negativ und positiv, vielleicht können wir damit anfangen.
Du hast auf jeden Fall schon geschafft meine Freundin regelmäßig in meinem Smartphone zu
erschrecken.
Sie hat dich ja kennengelernt auf dem Event und dann hingen wir auf unserem Sofa irgendwo
raus und dann ging dieses Home Assistant Voice an.
Ich habe das zum Testen hier.
Und plötzlich redest du in diesem Wohnzimmer rum und sie dachte so, das kenne ich irgendwo
her.
Ich hoffe, sie hat sich von dem Schock erholt.
Ich muss zu lachen, sie muss zu lachen,
Ich habe mich natürlich überlegt, was kann passieren, wenn die Stimme komplett ohne
Einschränkungen frei gibt.
auch in meinem Worst Case hin, dass das vielleicht für politische Zwecke
instrumentalisiert wird oder für gerade für Rechtsgelagertes Gedankengut.
Das wäre für mich natürlich der absolute Albtraum für jemanden, an eine offene und diverse
Gesellschaft auch glaubt und der das auch gut findet, dass wir eben diese Möglichkeit
haben der Vielseitigkeit.
Das war natürlich so ein bisschen mein Albtraum, aber es waren immer so theoretische
Ängste, weil du denkst, ja könnte ja passieren, naja gut, wie hoch ist die
Wahrscheinlichkeit?
Und dann irgendwann habe ich eine Mail, das schon ein paar Jahre her jetzt, eine Mail
bekommen.
Ich habe dir Video vertonen, wenn du mit dem Link mit Video vertreten dann kannst du dich
gerne bei mir melden.
und positiv muss ich sagen, der Autor hat dann gleich gesagt, der Inhalt kommt von mir,
von dem Kanal Eigentümer und die Stimme kommt vom Projekt Thorsten Beuys, also das fand
ich sehr positiv, dass er klar gemacht hat, Moment, hier muss man differenzieren und dann
fing er an mit irgendwelchen PowerPoint Folien, die die Rechtmäßigkeit der Bundesrepublik
Deutschland in Frage stellen und ich muss sagen, hab dann, dann saß ich schon
am Schreibtisch und habe gedacht, das kann jetzt nicht euer Ernst sein, das kann jetzt
nicht wahr sein, dass jetzt hier jemand aus dem Spektrum des Reichsbürgertums mit meiner
KI-Stimme irgendwie deren Gedanken gut hier vertont.
Und ich habe dann nur noch einen Augenblick geguckt, weil das dermaßen konträr ist meine
eigene Einstellung und Wahrnehmung, dass ich gesagt habe, ich kann mir das gar nicht
angucken, ich will mir das vor allem auch gar nicht komplett angucken und habe das dann
auch abgebrochen und sah es dann wirklich so ein paar
Ich hatte den Dominik angeschrieben und dann hat er mich auch verstanden.
Ich habe mich immer wieder bestärkt, dass es trotzdem das Positive überwiegt.
und Die uh
und der Lehrer hat dann gesagt, deswegen konnten die quasi nur statische Texte, also wenn
du sagst, drück dir eins, dann wurde halt ein vorgefertigtes WAV-File abgespielt.
Genau, ja, nichts dynamisches.
Es waren halt nur vorgenommener WAV-Aufnahmen, wie gesagt, je nachdem, was du halt für
eine Taste gedrückt hast, wurde halt ein WAV-File abgespielt.
Und dann hat er mich geschrieben, ja, dank Thorsten Beuys war ich jetzt in der Lage, auf
meinem Schulserver selber das zu hosten und auch jetzt kannst du sagen, ok, drück dir
eins, dann wird halt dynamisches Wetter von Berlin vertont oder, keine Ahnung.
uh Das ist ein schönes Projekt, das freut mich, wenn es diesen Mehrwert bietet.
Ein schönes Projekt aus der Schweiz, das ich auf der letzten FrostCon kennengelernt.
Das Projekt Lernstack ist eine Linux basierte USB Boot Distribution.
die einheitliche Lernumgebung für Schülerinnen und Schüler anbietet.
nicht jeder hat die gleichen Rechte zu Hause, nicht jeder hat dann irgendwelche teuren,
lizenzpflichtigen Office-Programme oder hat die notwendige Infrastruktur zu Hause.
Und da kannst du eben auch vielleicht ein altes Notebook, du irgendwo hast, einen alten
PC, mal einfach per USB hochfahren und hast eine einheitliche Lernumgebung, dass auch
Lehrkräfte sagen können, wir nehmen alle die gleiche Distribution, wir nehmen alle das
gleiche und jeder, wir können uns gegenseitig auch bisschen helfen und so weiter.
Und da habe ich auch das Feedback bekommen, die haben auch als Barrierefreiheitsaspekt
meine Stimme als Vorlesestimme mit drin.
Also für Barrierefreiheit, für Leute die nicht lesen können, also Sehschwächen, etc.
die Sehsprecher haben Probleme zu lesen.
Oder wenn du sagst, es sind längere Texte und ich will das nicht alles lesen, dann lass es
mir vorlesen, weil es bequemer ist.
Das sind so positive Projekte, die mich immer sehr freuen, wenn so etwas geht.
Ich hätte noch eine Rückfrage zu dem Negativen.
zwar, ich weiß jetzt nicht genau, ich kenne die Lizenz nicht, die du genommen hast, aber
die ist glaube ich sehr sehr frei.
Hast du irgendwelche Handhabe daran zu sagen, nee diesen Inhalt möchte ich damit jetzt
nicht machen lassen?
Ich bin kein Jurist und habe bisher auch abgesehen von dem Reißbürger-Content, was mich
als Mensch getroffen hat, nie wirklich hinterfragt, welchen hebel ich
Okay.
Dann müsste ich mich wahrscheinlich auch juristisch beraten lassen, welche Möglichkeiten
ich da Was ich immer mache, ist ein Disclaimer mit Ausgeben.
auch auf der Webseite und das gebe ich auch immer gerne mit, wenn ich irgendwo bin.
Mein Mindset, dass ich jemand bin, eine globale Welt glaubt und dass alle Menschen gleich
sind, egal wo, auf welcher GPS-Koordinat du eben auf die Welt gekommen bist.
Das gebe ich immer gerne als Disclaimer mit und dass ich mir wünschen würde, dass die
Stimme genutzt wird, um auch gleiche Fairness und Bildung und alles...
gleich und Chancen Gleichheit herzustellen.
Weiß ich genau, welche juristischen Möglichkeiten ich wirklich hätte?
Nein.
Weil bisher der Bedarf noch nicht da war, juristisch da irgendwo gegen anzugehen.
Das Mindset liefer ich immer mit aus, dass die Leute zumindest wissen, egal was meine
Karriere-Stimme vielleicht für einen Content liefert, der nicht meiner Meinung entspricht,
dass ich zumindest sage, wie ich eigentlich ticke als Mensch.
Erstmal rein auf menschlicher Ebene.
Hast du dich dazu durchregen können, tatsächlich damals auf die E-Mail zu antworten und zu
sagen, ne?
Die E-Mail war freundlich geschrieben und die Person hat auch gleich am Anfang
klargestellt, dass sie trennen zwischen Stimme und Inhalt.
Absolut.
Die Person hat sich nicht mit Gesicht oder gezeigt.
Der einzige Bezug jenseits des Inhalts war natürlich meine Stimme.
Ich habe vor ein paar Wochen in Vorbereitung auf einen Vortrag geguckt, der Link noch
gültig ist, aber das Video wurde gelöscht.
Ich weiß jetzt nicht, ob es
dem Autoren selber gelöscht wurde oder ob es von YouTube irgendwann mal gesperrt oder
gelöscht wurde, das weiß ich nicht.
Also es war auf jeden Fall keine Arbeit von dir darin dieses Video löschen zu lassen.
Nein, ist tatsächlich...
Ich habe dann auch, obwohl die Mail an sich jetzt nicht unverschämt war, sondern eher
freundlich formuliert war und alles, aber das war einfach, wie gesagt, aus dem
Gedankengut, wo ich mich nicht mit beschäftigen möchte auch und deswegen habe ich dann
auch gesagt, lass gut sein.
Absortieren, Haken dran, weiter geht's.
Okay cool, das heißt du hast diese ganze Stimme aufgenommen, du hast Feedback bekommen,
dass es alles Müll war, also musst du das nochmal machen, dann...
Das glaube ich.
Ja, wie ist es...
Also dann hast du dir ein vernünftiges Mikrofon anhand der Beratung, wer war das, Kreutz?
Dominik Kreutz, Entschuldigung, gemacht und hast dann alles nochmal aufgenommen oder
vieles?
Und dann habt ihr das Projekt dann nochmal gestartet.
Er hat dann auch noch bisschen was optimiert, das war dann auch...
Also, wie gesagt, wenn du einmal Mist aufgenommen hast, das kannst du vielleicht noch ein
bisschen Nuancen verbessern, aber so richtig genial wird es halt auch nicht.
Dazu kommt noch, ich...
Also den Tipp, nimm ein gutes Mikrofon und such dir eine ruhige Aufnahmesituation.
Zum Beispiel ist nicht irgendwo, wo ein PC-Lüfter im Hintergrund föhnt oder wo ein
Kühlschrank brummt.
Dinge, die vielleicht als Mensch gar nicht bewusst wahrgenommen werden, aber die Technik
nimmt es halt trotzdem auf.
Die KI hat gesagt, shit in, shit out.
Die generiert einen prumenden Kühlschrank im Hintergrund.
Diesen Tipp hätte ich ernst nehmen müssen.
Dafür habe ich andere Tipps zu ernst genommen, Beispiel nuscheln nicht, verschlucken keine
Silben am Anfang oder Ende, aber reden auch natürlich.
Da habe ich leider den nächsten Fehler gemacht.
Wenn schon Shit, richtig ärgerlich.
Ich wollte jedes Wort richtig schön deutlich betonen und habe dann halt gesagt, heute
scheint die Sonne.
Da hast du diese komischen künstlichen Pausen aber reingebaut.
Ich wollte auch keine Enten verschlucken und keine, dass das alles wirklich schön und
jedes Wort an sich war ja toll, aber es hat natürlich null natürlichen Sprachfluss
generiert.
Also so ist jetzt nicht unbedingt gesprochen.
Genau, ich habe halt unnatürlich aufgenommen, unabhängig von dem schlechten Mikrofon.
Also ich habe viel Lehrgeld, viel Zeit sozusagen investiert.
Ich mir auch wirklich ein kleines Eckchen gebaut, diesen schwarzen Nocken, die man aus
Akustikplatten kennt.
habe mir ein kleines Eck gebaut, mir da Teppichboden reingelegt, alles was Schall
isolieren kann.
mir Platten gekauft und das hingehängt, ein brauchbares Mikrofon, also hier so ein rote
Podcast Mikrofon gekauft.
Und ja, habe dann im Prinzip noch mal von vorne angefangen und natürlicher betont.
Ach, meine Güte,
ist tatsächlich genau ein gutes Thema, weil ich bin auf ähnliche Tipps gestoßen, sowas wie
Zitronensäure ins Wasser, damit das eben diese diese Mundklicks rausnimmt, weil mir das
eben auch aufgefallen ist, irgendwann so bei einem Kaffee trinken während des Podcasts ist
keine gute Idee.
Du hast halt einfach so einen klebrigen Mund danach und dann kommt genau das zustande.
Das heißt, du bist eigentlich im Grunde in diese Voice-Overecke reingerutscht mit deinem
Vorhaben.
Ja, so bisschen schon.
Man guckt dann über die Tutorials, wie kann ich denn sauber betonen, so Sprechertutorials
und was auch immer.
Wie, jetzt bin ich kein Sprecher?
Dann bin ich dann auf und ich dachte, das war ja auch Zeit, die man von der Familie
abgeknapst hat.
Wenn man dann nach Feierabend sagt, ich gehe jetzt hier nochmal in meine selbstgebaute
Sprecherkabine mit meinem geschnittenen Apfel und hab dann da immer mal...
30 aufnahmen gemacht und am Apfel gemümmelt und dann nochmal aufgenommen und das habe ich
dann tatsächlich die nächsten Monate meines Freizeitlebens gemacht.
Wie sieht der Prozess denn heute aus?
hast damals gesagt, ok, 16 Stunden Aufnahmen.
Wenn ich das richtig verstanden habe, der Text, den du sprichst, der war schon vorher
existierte als Textform.
Das heißt, du hast dir nicht Text ausgedacht und den dann auch niedergeschrieben, sondern
du hattest schon Text, den du gesprochen hast.
Ich das richtig verstanden?
Genau.
ist nicht so, dass ich 16 Stunden improvisiere und dann transkribiere und dann splitte auf
einzelne Sätze auf.
Der Text ist das erste, da ist, der Text corpus.
Damals hatte ich eine CSV-Datei als Eingabetext mit 30.000 Sätzen.
Ich möchte dann meine originale K.I.
Stimme veröffentlichen.
Die Technologie entwickelt sich so rasant.
Die K.I.
Modell, die vor 3 Jahren erstellt wurde, ist heute gar nicht mehr alltagstauglich.
Das mir wichtig.
Das sogenannte Voice Dataset ist die Verbindung aus vielen Wave-Dateien und einer
CSV-Datei, die gemapped ist, welche
Wavetatei enthält welchen gesprochenen Satz, damit die KI eben lernen kann, wie klingt
welcher Text.
Und da habe ich dann gesagt, naja, Moment, wenn ich jetzt das veröffentliche, also anders
als wenn ich das privat zu Hause mache, nur für mich, dann muss ich ja auch aufpassen,
welche Sätze ich veröffentliche.
Ich kann jetzt kein Copyright-geschütztes Material einsprechen und das dann eben als
CC0-Lizenz veröffentlichen, weil dann würde der Autor wahrscheinlich, der hätte
wahrscheinlich Rückfragen und sagen, Moment mal, du kannst doch hier nicht mein Buch
ablesen und dann veröffentlichen.
Da hatte den Corpus von Microsoft in Deutschland vorbereitet, der auch aus dem Smart Home
Sektor Aus dem Alltag eines Smart Home Enthusiasten gegriffene Phrasen.
von Mozilla kam Invoice, die das als Projekt hatten mit CC0 Lizenz.
Daraus habe ich mir meinen Corpus gebaut, damit ich ihn auch frei veröffentlichen konnte.
Und ja.
den Korpus selber gebaut.
Ich hätte gedacht, dass der Korpus im Vorhinein schon existiert, um alle möglichen, also
für die Sprache alle möglichen laute Tone, Wort zusammen, oder nicht Wort, sondern Tons
Zusammensetzung zu generieren, so dass man ein gutes Trainingsmaterial hat, die komplette
Sprache abbilden zu können.
Für Englisch gab es schon etwas, da ist diese sogenannte LJ Speech, das ist auf
Blindeaufnahmen von Linda Johnson und wurde von Keys Aito damals aufbereitet in so einem
Voice Dataset.
Da gab es sie schon, aber im Deutschen war das 2019, 2020 war das noch eher rar, dass du
solche Korp-Pi-Korp-Puse hast.
Und da war es dann so, was du gerade angesprochen hast, KI lernt ja auf Basis von von
Nehmen.
bin kein Linguist, aber diese kleinste Lauteinheit, da hast du ja genau dieses Thema.
du jetzt einen Korpus hast, wo gewisse Vornehme der deutschen Sprache nicht drin sind,
dann wird die KI nie wissen, wie sie diesen Vornehmen aussprechen muss oder
unterrepräsentiert sind, dass sie sagen, ich weiß eigentlich kaum, wie ich diesen
Vornehmen zu betonen habe.
Also das war tatsächlich so dieser...
Was war zuerst?
Hände oder Eier?
Also in dem Fall war der Textkorpus zuerst und dann...
den Stück weit immer vorlesen.
Was würdest du sagen, oder weißt du wie viel Arbeit es ist jetzt seine Stimme zu
digitalisieren?
Wenn du das Projekt nochmal machen müsstest, müsstest du wieder 16 Stunden aufnehmen.
Nein, mittlerweile glücklicherweise nicht mehr.
Mittlerweile gibt es so zwei, wie ich es Passwörter.
Das nennt man einmal Fine-Tuning, dadurch dass wir heute schon viel mehr Trainingsdaten
haben und auch schon so Foundation-Modelle oder Basismodelle, auf denen man sozusagen
Fine-Tune kann.
gerade so, man sagt so Multispeaker-Datasets, das heißt da hast du, ich bin jetzt kein
Machine Learning Experte, also das ist ja eine richtige Wissenschaft, da bin ich jetzt
nicht so drin in der Theorie und der Technik Details.
Aber da hast du ja diese Vektoren oder keine Ahnung was da alles an den Dingen mit
reinfliegt.
Dadurch, dass du heute viel mehr vorbereitete Basismodelle hast, kannst du mit wenig
Aufnahmen relativ gute Ergebnisse schon erzielen.
Das funktioniert im Englischen tatsächlich mit dem was ich bisher mal so gesehen habe
recht ordentlich schon.
Im Deutschen geht es auch
Ob es reicht, du jetzt mal, ich mal, enge Freunde und Familie reinlegen kannst und sie
könnten jetzt nicht erkennen, was echt und was Fälschung ist, weiß ich nicht.
Also eher noch nicht, aber bald eventuell.
Ja, denke auch.
Das Thema ist ja zum einen die Trainingsartung.
Viele werden ja auch mit 30 Sekunden reichen für einen Stimmklon.
Da wird ja im Prinzip nur geguckt, welche Merkmale die Stimme und wie kann ich aus diesem
bestehenden Modell, aus diesem ganz vielen Multispeaker Modell, was kann ich da
zusammenbauen, damit die Eigenschaften so dem möglichst nahe kommen.
Das kann man natürlich machen.
Das ist auch dieses sogenannte Zero-Shot-Voice-Kloning.
um
mit einem Satz oder mit 30 Sekunden.
ist gemessen an 16 Sekunden zu vernachlässigen.
das ist natürlich auch Chance und Risiko gleichermaßen.
16 Stunden sauberes, transkrepiertes Audio kriegst du nicht immer gleich von jedem.
Auch nicht aus irgendwelchen Filmen oder Podcasts vielleicht noch.
Aber 30 Sekunden eine Minute Audiomaterial.
ist ein Witz.
Jeder der irgendwie halbwegs in der Öffentlichkeit steht, es jetzt mit einem Podcast ist
oder Radiomoderatoren und Moderatorinnen.
Schauspieler, Synchronsprecher, die mit ihrer Stimmarbeit irgendwo online abrufbar sind.
Da 30 oder 60 Sekunden Audio zu kriegen, ist keine Herausforderung.
Nee, gar nicht.
da alle die mehr oder weniger öffentlich sind.
Das ist das was ich halt meine.
Du hast den vorgegriffen am Anfang.
Du hast einfach das frei gemacht und jetzt aktuell durch die Tools kann man halt mit 30
Sekunden Clips mehr oder weniger faken.
Jetzt habe ich noch den Vorteil, dass ich öffentlich gemacht habe.
Ich nur irgendwo auf Cloud Drive und dann können alle darauf zugreifen und runterladen bei
Bedarf.
Ich bin auch enthousiastisch, das Thema angeht und ich verfolge das ja und ich bin da ja
auch immer noch am Ball.
dadurch, dass ich Thorsten-Voice-Thema auch mit Internetseite aufgebaut habe, kann ich es
relativ leicht.
Wenn jetzt irgendwer sagt, Moment, ich habe
Du als Person hast doch irgendwas ganz blödes gesagt.
Dann kann ich relativ leicht sagen, ne ne, das ist jetzt nicht...
Das Projekt Thorsten Woyst, das kannst du relativ leicht googeln, also du findest es dann
auch und...
ich kann relativ schnell erklären, dass das nicht zwingend meine KI-Stimme ist.
Gut, kann es natürlich auch anders machen.
kann natürlich auch als echter Mensch mit meiner KI-Stimme was Dobes sagen und kann
nachher sagen, das war ich nicht.
Also ich kann mich natürlich auch raus retten.
ist so ein bisschen der Tor-Exit-Note-Effekt, oder?
Du betreibst eine eigene Exit-Note, damit alle über deine Internetleitung rausgehen können
und dann heißt es nachher Jorgen.
Ich weiß ich nicht, wer das war.
es kann ja jeder gewesen sein.
Ich kann jetzt alle möglichen Leute beleidigen und sagen, du das tut mir leid, das würde
ich ja nie sagen, das war ich nicht.
Aber nein, natürlich ist das nicht der Plan.
Ich habe es freigegeben und auch öffentlich gemacht und auch bisschen größer aufgezogen,
damit ich auch immer sagen kann, das Projekt gibt es und du kannst es dazu nachlesen.
Aber wie gesagt, wenn jetzt jemand sagt, ich will gar nicht in der Öffentlichkeit stehen,
da kann ja schon eine WhatsApp-Sprachennachricht reichen.
Das ist ja eine Person, will vielleicht überhaupt nicht in der Öffentlichkeit stehen.
Das Handy kommt falschen Händen, Sprachnachricht kommt mit irgendwelchen Umwegen mit
falschen Händen.
Und so Sprachnachricht ist ja auch mal locker eine Minute lang.
je nachdem.
einigen...
Genau, das ist auch bei der KI ja egal, wenn der Text Sinn macht, aber die Audiomerkmal
sind ja da.
Und das ist dann schon eher ein Problem, sage ich mal aus Themen Enkeltrick, Themen der
Identität und jetzt, wenn du es noch kombinierst.
Früher hatte es den Vorteil, dass die KI-Stimmen kaum Emotionen abbilden konnten.
Nur sehr rudimentär, weil sie auch kein Textverständnis hatten und die Trainingsdaten, die
Software, Framework waren nicht da.
Durch diese Large-Language-Modelle ist ja so ein gewisses rudimentäres Textverständnis da.
heißt, die KI hat auf der einen Seite, damit sie es überhaupt emotional betonen kann.
Es gibt ja emotionale Datensätze.
Auch von mir übrigens eins.
Du hast einmal ein modell, enthousiastisch und traurig.
angeekelt, wütend, lustig, betrunken, schläfrig.
Unterhältnism natürlich ganz wichtig.
Das ist eine Lebenseinstellung.
an Stelle aber auch natürlich nur ermöglicht, dass man eben nicht mehr 16 Stunden lange
einspricht.
Also 16 Stunden lang angeekelt einspricht oder betrunken, das wäre guter Konsum.
Es geht auf die Leber.
Das war auch Frage, hast du eigentlich immer betrunken?
Nein, natürlich war ich nicht betrunken.
Ich habe versucht, halbwegs authentisch zu simulieren.
Aber es ist auch spannend, wenn gerade wütende Sprachdaten aufgenommen hast.
Ich habe natürlich immer die gleichen Sätze aufgenommen, damit das Modelltraining bisschen
vergleichbarer, transparenter ist.
Und jetzt ist natürlich nicht jeder Satz...
Also wenn du so einen Satz hast, wie heute scheint die Sonne, den kannst du halt jetzt von
der Natur der Sache jetzt weder wütend noch angeekelt noch sonst irgendwas wirklich
betonen, weil das einfach der Kontext jetzt nicht so hergibt.
Und ich hab das dann wirklich geübt und nochmal, professionelle Sprecher wird sich jetzt
wahrscheinlich kaputt lachen, aber das sind halt so meine amateurhaften Möglichkeiten.
Ich hab dann halt vom Spiel gestanden wirklich und hab...
mir einen Satz vorgestellt, also irgendwas, ich wirklich eklig finde.
Ich habe den gesprochen und habe so auf das Körpergefühl gehört, der Bauch krampft ein
bisschen zusammen und du machst dich so bisschen klein und wie reagiert der Körper
eigentlich so instinktiv, wenn du was wirklich ekliges sagst oder fühlst und habe versucht
dieses Gefühl, also diese Körperhaltung zu reproduzieren, während ich eben so einen Satz
sag, wie heute scheint die Sonne.
Das sah natürlich sehr amüsant aus und hat auch teilweise
zu Irritationen im Familienkreis geführt, ich saß in meiner kleinen Aufnahmekabine und
habe dann mein Mikrofon angebrüllt.
Ich habe mein wütendes Datensatz aufgenommen.
Ich will jetzt hier den Pegel nicht so explodierend bringen, wenn ich jetzt ins Mikro
brülle, aber man kann sich das vielleicht vorstellen, wenn du so setzt hast, wie heute
scheint die Sonne und du brüllst diesen Satz ins Mikrofon, dass dann irgendwann schon die
Frau reinkommt und sagt, ist alles okay bei dir?
Stimmt was nicht?
Ja.
Also insofern ist das ja auch nachvollziehbar.
Aber das sind natürlich so ein paar spaßige Momente, du dann eben hast, wenn du sowas
aufnimmst.
Ja und ich kann mir vorstellen, schön, dass dich unterbreche, aber ich kann mir
vorstellen, dass nur wenn du jetzt vor dem Mikro steht oder vor dem Monitor und dich
ansonsten böse aussprechen willst, dass das nicht wirklich passiert, weil du musst es halt
wirklich fühlen, nur dann hast du die wirkliche Emotion da drin.
Das ist ja genauso wie, es gibt ja auch Lächeln und ein falsches Lächeln.
Das ist halt ganz was anderes.
Und der Körper ist da glaube ich einfach voll dabei bei allen Sachen und das kann man
nicht so faken, weil sonst hast du Mist rein.
Mhm.
es gefakt ist, dann hast du halt eine gefakte wütende Stimme, die dann auch nichts bringt,
weil sie dann nicht wirklich wütend ist.
Wenn du das nicht professionell kannst, dann musst du in die Emotionen versuchen
reinzufühlen und die körperlichen Eigenarten intensivieren.
Du musst ja auch manchmal ein bisschen over the top gehen, das auch bisschen rüber kommt.
dann sagst eben auch irgendwie, heute ist der schönste Tag meines Lebens und bist aber in
der Stimmung des angewiderten oder des wütenden.
Ja.
Ich hatte schon den Anspruch, eine gute Arbeit abzugeben, aber ich dachte mir, ich
versuche einfach und vielleicht kann es dem ein oder anderen auch helfen.
Hast du eine innerliche Befreiung gespürt, wenn du deine Aggressionen rausgelassen hast
vor dem Mikrofon?
Das ist natürlich schon mal, also komm drauf an, ob der Tag je nachdem wie der gelaufen
ist, so wenn du abends da stehst und ob du den Frust noch irgendwie hattest, dann war das
ganz befreiend oder ob du sagst, ne, eigentlich war ein schöner Tag, dann war es
vielleicht bisschen schwieriger, ja?
Ich habe diese emotionale Reise gut überstanden.
Ich bin weder dauerwütend noch dauerangeekelt.
Mir geht gut.
Das ist gut.
Nicht, dass man dann in so Zustand verfällt und nicht mehr rauskommt.
Der Schauspieler, nicht mehr aus seiner Rolle kommt.
Genau, also der richtige, heißt das?
Method Acting.
wenn du sowas hast wie irgendwie schlecht gelaunt oder depressiv, ne, wenn du so eine
Stimme für ein paar Stunden sprichst oder auch nur eine halbe Stunde, dann musst du
nachher erstmal dich wieder resetten, oder?
wieder auf normales Befinden zurückzukommen.
Ja, wenn du dann, ich hab meistens so eine Stunde oder so was, dann werden auch die
Stimmbänder müde, dann verändert sich auch die Stimme, dann musst du so bisschen mal Pause
machen.
ist dann schon so bisschen, du gehst ja auch mit dem angekrampften Körper halt so, ja
gehst du so ein bisschen auch aus dieser Kabine raus und denkst so, hm, jetzt ist aber mal
wieder Feierabend, lass mal einmal durchschütteln den Körper und mal durchatmen.
Ja und...
heben.
und die Emotionen mal wieder resetten auf Werkseinstellungen.
Ja, jetzt hast du diese ganzen Aufnahmen gemacht und dein heeres Ziel war es ja einen
privaten Sprachassistenten zu machen.
Jetzt hast du deine Stimme.
Bist du dazu gekommen?
Hast du jetzt zu Hause einen privaten oder datenschutzfreundlichen Assistenten?
Und was nutzt du da?
hast du Hatehorsten.
Nein, ich habe noch keinen Hatefasten und das würde sich ein bisschen creepy anfühlen,
ich, wenn ich jeden Tag mit mir selber...
Das hat so komischen Beigeschmack, wenn ich meiner eigenen Stimme interagieren würde jeden
Tag.
Also wenn ich meine eigene Stimme jedes Mal hören würde.
Tatsächlich habe ich noch keinen.
Ich habe den Home Assistant Voice Preview Edition.
Den habe ich tatsächlich hier stehen auch und den benutze ich, aber der hat es jetzt, sage
ich mal, noch nicht ins Wohnzimmer als Alltags...
Ich bin
Ich jetzt mal Begriffe gesammelt, dass wir ein hessisches Wakeword trainieren.
Das kann man als Aktivierungswort kostenfrei zur Verfügung stellen.
Da habe ich eine Nachfrage.
Ein Aktivierungswort musst du separat trainieren?
Okay, wieso, weshalb, warum?
Ich bin ganz schön dumm.
Das ist das, was bei den ganzen kommerziellen Produkten immer auf den Geräten läuft.
Das Wake-Word ist das, was auf den Geräten ist, bevor das Stream mehr oder an die Cloud
übertragen wird, da Transkribiert und verarbeitet wird.
Also technisch läuft das so, du hast zwei Prozesse im Endeffekt.
Einer hört nur die ganze Zeit auf das Wake Vault und dann wird der Teil aktiviert, der
alles aufnimmt.
Nicht, dass die Leute immer, weil viele sagen, das Ding hört die ganze Zeit zu auf alles,
was du sagst.
Ich glaube, so funktionieren die nicht.
Nein, das ist bei so proprietary Hardware und Software immer nicht so einfach zu sagen.
sage mal so, dem, ich das technisch bewerten würde, hört das Gerät erst mal nur auf dieses
Aktivierungswort, auf dieses Wake-Word.
Und wenn es das hört, aktiviert es sozusagen eine Leitung zu dem jeweiligen cloudbasierten
Hersteller und überträgt dann, weil die Spracherkennung dann doch als Cloud dienst.
Ihr habt es selber erlebt, je nachdem, gut die Spracherkennungsengine noch ist, dann wird
auch aus Home Assistant vielleicht mal was anderes.
Das ist Wissen so.
Dann gibt es auch Open Source Framework wie Open Wakework, Home Assistant oder Micro Open
Wakework.
Das lebt natürlich auch davon wie allen Trainingsdaten.
Wenn du nur angenommen bist und mir ein Wort überlegt hast, das möchte ich als
Aktivierungswort haben.
Dann reicht es nicht, du das als einträgst, sondern du musst das KI-Modell trainieren.
du dir sagen willst, was du für ein Wort nehmen willst, dann nimmst du nur
Aktivierungswort und nimmst nur Aktivierungswort.
Dann muss aber auch künstlich Rauschen reingebracht werden.
Das ist ja anders als bei Text-to-Speech, wo die Klarheit wichtig ist.
Bei einem Sprachassistenten, der nicht mit einem perfekten Mikrofon voransteht,
Aktivierungswort.
Du rennst ja geschirrklappend an einem Mikrofon vorbei, 3,50 und quatscht noch die andere
Richtung.
Das ist ja weit weg von perfekter Audioqualität, da herankommt.
Wenn du nur dein persönliches Wakeword mit ganz perfekten, sauberen Aufnahmen mit 15 cm
Abstand zum Mund aufgenommen hast, wird das Ding dich nie verstehen.
Und wenn du das alles machst, dann du dann auch etliche Aufnahmen gemacht.
Vielleicht dann die Freundinnen oder die anderen Menschen, Freunde, zu Besuch sind, würden
das nicht verstehen, weil diese Muster nicht bekannt sind.
Deswegen lebt es da auch von der Vielfalt.
geht das dann nicht und das muss dann so generisch trainiert werden, dass es halt für
viele Leute funktioniert.
Das ist ja auch oft ein Problem, Spracherkennungs- und Spracherkennungs-Aspekte zu frei
verfügbar sind.
Da brauchst du ja sehr viele Trainingsdaten.
Die Stimme ist wenn du ein paar Sätze vorgelesen hast.
Sie Beispiel das Problem, dass mehrheitlich männlich klingende Stimmen mitgemacht haben.
Wenn du mehr Trainingsdaten hast, vorwiegend männliche Stimmlagen haben, wird die KI
später auch vorwiegend männliche Stimmen besser erkennen.
Das ist natürlich auch ein Akzeptanzfaktor.
Wenn du sagst, ich habe eine lokal laufige Spracherkennung, die vielleicht aber auf Basis
von Trainingsdaten erzeugt wurde, die mehrheitlich von Männern gefüttert wurde, dann hat
vielleicht die Partnerin Problem, weil sie nicht mehr sauber erkannt wird, weil das System
zu wenig weibliche Stimmen hatten.
so dieser Bias eines trainierten Modells ist so heftig, dass er auf jede ekliche Art und
Weise einfach reinkommt.
es Zusammenfassung, Texterkennung für Chat-Chapel-Video und Co.
Sei es die Stimme-Erkennung.
Das ist echt Wahnsinn.
Ich habe nie darüber nachgedacht, dass das Wake Word auch trainiert werden sollte.
Wieso?
Nimm mal einfach ein anderes Wort.
Aber völlig richtig.
Du musst ja...
musst ja alle möglichen Aussprachen, Dialekte, Akzente, Sprachen verstehen können.
Und an der Stelle ist es natürlich gut, wenn das Wake-Word irgendwas ist, du...
was eine gewisse Länge hat und nicht einem Wort ähnelt, den du im normalen Sprachgebrauch
hast.
Sonst hast du eben die ganzen false positives, wo das ganze Ding gerät aufwacht.
Und wenn der Gesprächsfluss natürlich im Anschluss, sagen wir mal, für einen
Sprachassistenten unerwartet ist, dann wird das Ganze vielleicht auch als Soundsample
irgendwo hingeschickt zum händischen Durchanalysieren.
Was wurde jetzt hier wirklich gemeint?
Und hätte jetzt hier irgendwas passieren sollen, war es okay, dass ich nach 30 Sekunden
einfach wieder aufgehört habe zu lauschen, weil ich hab halt kein Kommando verstanden.
Das kann man auch bei Amazon in die Historie hören.
in den Datenschutz-Center oder Profilen gucken.
Man merkt auch die False-Positives.
Wie lange wird dann kurz was aufgenommen?
Bis das System merkt, dass hier nichts mehr was für mich ist.
dann abschaltet.
Aber am Endeffekt ist immer das gleiche.
Je diverser, je vielfältiger die Trainingsdaten sind, desto besser wird das System alle
möglichen
Dialekte, Verständnisse und so weiter erkennen können.
noch eine Frage dazu.
Je diverser etwas ist, kann es theoretisch mehrere Sachen erkennen.
Wird es dann aber nicht schlechter für spezifische Sachen?
oder kriegt man das hin?
Das kann ich nicht beurteilen, deswegen, ehrliche Frage.
Ich kann es mit Home Assistant vergleichen, glaube, dass Mike Hansen mit seinem Alias den
KMH aussprechen kann.
Er hat mir einmal erklärt, wie man es ausspricht.
kann es trotzdem nicht.
Mike Hansen ist der Voice-Guru bei Nabukasa.
Er möchte die Spracherkennung beispielsweise lokal betreiben.
Du auch mit OpenAI-Modell Whisper
Ich habe das mal testweise auf meiner NAS auf dem Container betrieben.
Das hat technisch funktioniert.
Ich habe das kleinere Modell oder das Medium, ich weiß nicht welches ich damals genommen
hatte, ich hatte ein Whisper Modell auf die NAS als Container geworfen und hatte dann mal
versucht mit dem Home Assistant Voice Preview Edition Kit auch das eben zu testen.
wenn ich dann was gesagt habe, wie ich schalte irgendwas ein oder aus.
Das hat teilweise 8 Sekunden gedauert.
Du kannst ja dann Debuggen.
Das System zeigt dir ja an welcher Prozessschritt wie lange gedauert hat.
Dann hat es halt 8 Sekunden gedauert bis Whisper wirklich mit einem Texttranskript zurück
kam.
Und das ist sag ich mal, für einen Test okay, kann man das mal machen.
im Praxisalltag will das ja keiner haben.
Richtig.
ist ja dann jenseits von realistisch.
jetzt sag ich mal nicht jeder der sagt, ich will eigentlich ein sprachgestaltetes Smart
Home haben.
Was gerne ohne Cloud-Abhängigkeit funktioniert.
hat ja nicht jeder den technischen Anspruch sich ein halbes Rechenzentrum zu Hause zu
bauen und sich ein Computer Cluster zu Die 7x24 Läufe sind sehr technisch und
Phrasen.
Ja, so muss es ein Phrase, ich weiß gar nicht, auf jeden Phrases anstatt wirklich dann
komplette, komplettes Ladlingue-Modell ist es halt nur für Phrasen da, wie einschalten,
ausschalten, das war das glaube ich.
Genau, das ist ja auch so dieses Thema, wo du ja auch ursprünglich die Frage gestellt
hast, ist es so, es dann irgendwann zu komplex wird.
Also je diverser, je vielseitiger es wird, verliert es dann die Fähigkeit auf Details und
auf einzelne Ausprägungen zu achten.
Deswegen, also diese Phrasenerkennung, die geht ja quasi den umgekehrten Weg.
Wenn ich jetzt Whisper einbinde, könnte das Modell vielleicht auch Phrasen verstehen, wenn
ich keine Ahnung meine Doktorarbeit in der Quantenphysik diktiere.
Das ist jetzt im Smart Home Feld selten gefragt.
Da das Thema so ein bisschen.
Dieses Phrasen Modell kommt aus der Baustelle von Raspi.
Das war ein Parallelprojekt von Mike Hansen.
Wo du sagst, schreib doch einfach nur die Sätze hin, die das System wirklich erkennen
soll.
Dann wird mit Vosk geschrieben.
Das glaube ich auch eine Open Source Spracherkennungsengine.
Aber sehr spezialisiertes Modell trainiert, was genau auf diesen Wortschatz und die
Phrasen abzielt, die du eben für dein Smartphone brauchst.
das ist natürlich praktisch, weil du halt auch in Home Assistant benannte Entitäten Das
System kann natürlich sehr genau wissen, welche Wörter dann bei dir zum Einsatz kommen.
Die Steuer hast du zuhause.
Hast du keine Entität mit dem Namen Vitrine, dann kennt das Wort nicht Vitrine.
Hast du eine Entität mit Vitrine, dann lernt das System auch.
Und wenn es das nicht kennt, natürlich auch dieses Risiko, wie du gesagt hast, false
positive geringer.
Je weniger Wörter, es dem kennen und verstehen und unterscheiden muss, desto geringer ist
die Chance, dass es etwas falsch versteht.
Ja spannend, weil ich habe bisschen rumgespielt mit dem, ich habe den HomeSys Voice PE
hier auch sitzen.
Und für mich ist, wollte, persönlicher Use Case, ich möchte meine Erkaufsliste darüber
machen.
Ich habe hier tatsächlich auch eine GPU in meinem Server drin, also eine Nvidia 3080 oder
sowas.
Also schon was ordentliches.
Und ja, ich versuche immer Milch auf die Erkaufsliste zu setzen, aber ich setze immer nur
Milch auf die Erkaufsliste.
Das funktioniert einfach nicht.
Ich habe auch mit diversen Whisper Modellen gespielt.
Ich kann auch größere laden, das Large Modell, das ist ganz Large.
Aber so ganz flüssig und so ohne Probleme kriege ich es noch nicht hin.
Vielleicht andere kriegen es hin.
Und auch auf Deutsch, nicht auf Englisch.
Und deswegen habe ich das erstmal jetzt aufgegeben und warte jetzt noch ein bisschen, bis
da wieder ein großer Sprung kommt.
Vielleicht muss ich das Phrasending mal ausprobieren.
Aber dann wiederum...
Dann funktioniert vielleicht das Schalten besser meiner Stehlampe im Wohnzimmer.
Aber dann werde ich garantiert keine Orangen auf die Einkaufsliste setzen können, weil
Orangen nicht in diesem speziellen Sprachschatz drin sind.
Das muss man ausprobieren, ich habe selber nur mal Rudimentärwissertesten können.
meine, kannst aber auch individuelle Wörter, die jetzt quasi nicht in deinem Smart Home
Kontext sind, wenn das System jetzt abfragt in deinen Entitätenbaum und sagt, was hast du
als Entität benannt oder als Alias, du kannst ja auch Alias definieren, aber ich glaube,
kannst auch so Custom Words einfach in eine flache Liste aufnehmen, dass du sagst, Milch
beispielsweise, nimmst du mit drauf oder andere Sachen.
Aber wenn mal etwas ganz Verrücktes auf die Einkaufsliste setzen willst, was ich noch nie
gekauft habe, dann wird das wahrscheinlich hinten runterfallen.
Ob Wispel das dann könnte ist auch die Frage.
Okay, wir haben eine kurze Pause gemacht, daher weiß ich nicht mehr, was der gesamte
Kontext war, aber ich möchte nochmal kurz ausführen, warum ich das mit der Shoppingliste
mache.
Ich habe zu Hause diese Google Homes, die in fast jedem Raum, meistens für Musik genutzt.
Und früher, in der alten Wohnung noch, wo ich noch in Köln gelebt war vor einigen Jahren,
habe ich das super gerne und alltäglich benutzt, um zu sagen, hey, setze XY auf die
Einkaufsliste.
Ich hatte damals diese Google Home App oder in der Google Home App die Bring App
kombiniert.
Bring ist so eine kleine App, die kennen glaube ich viele in Deutschland.
Einfach eine Einkaufslisten App mit Prospekt und so ein Kram.
Das hat hervorragend funktioniert mit Google Home.
Hat nichts mit Home Assistant zu tun.
Jetzt kommen wir aber zum Thema, warum ich das lokal haben möchte, weil Google irgendwann
entschieden hat, wir ändern das jetzt.
Jetzt kannst du nicht einfach sagen, hey setze irgendwas auf die Einkaufsliste.
Die haben das erst so abgeändert, dass du, wenn du das etwas auf die Liste setzen musst,
du nur deren Produkt nutzen kannst, also die Google Keep App heißt sie, glaube ich.
Wenn du etwas auf Bring setzen musst, musst du sagen, hey, spreche mit Bring.
Dann kam so ein Tü-Tüt.
Okay, jetzt kannst du mit Bring sprechen.
Und dann musst du sagen, setze bitte mich auf die Einkaufsliste.
Und das war so unnatürlich und klank, dass wir das einfach nicht...
ab dem Tag halt nicht mehr nutzen konnten.
deswegen bin ich auf dem Quest, die Einkaufsliste irgendwie hinzukriegen mit guter
Spracherkennung.
Bisher noch nicht erfolgreich, weil das ist etwas, was uns tatsächlich beim Kochen im
Alltag, du bist am Kühlschrank, du putzt die letzten Packungen Saft raus, schmeißt das
einfach direkt drauf per Sprache, das Ding erkennt es sofort, du vergisst es nicht.
Es ist einfach genial, weil du hast den Intent sofort jetzt was aufzusetzen, in zwei
Minuten hast du es vergessen, wir kennen das halt.
ein kleines Luxusproblem, aber deswegen finde ich das ohne Cloud zu haben ganz spannend,
aber hat halt auch seine Schwierigkeiten durch den komplexen Grad, wir jetzt gerade
erklärt haben.
Da muss man auch sagen, wenn man jetzt von kommerziellen, großen Unternehmen kommt, es
gewohnt ist, natürlich muss man ganz realistisch sagen, der technischen und auf der
Engineering-Seite sind die ganz oft weit vorne.
Aber jetzt muss man auch mal überlegen, wie viele Leute vielleicht bei Amazon oder bei
Google an diesen Sprachkomponenten arbeiten und welche Manpower oder welche Personalpower
quasi jetzt in der Bukhasa oder Open Source Projekte oder kleinere Start-ups, die in
diesem Feld arbeiten, wie viele die haben.
Ich erstmal ein großes Lob an alle, die jetzt freiwillige Enthusiasten sind, oder ob das
Firmen sind oder Startups, was auch immer, die da im Open Source Umfeld arbeiten und sich
einbringen.
Das finde ich immer total spannend.
Da muss man natürlich trotzdem realistisch drauf gucken und Abstriche machen.
Aber du hast es selber gesagt.
die Google Anbieter genutzt und dann haben sie das natürlich so umgestellt und du bist
halt in dieser Abhängigkeit.
Wenn jetzt Google sagt wir stellen mal unsere eigene Shopping App oder unsere eigenen
Dienste in den Vordergrund und wenn du einen Tritt ansprechen willst, musst du erstmal die
aktivieren und dann muss die ansprechen und dann kannst du mit der reden.
Diese Abhängigkeit hast du dann halt.
Das ist die Kehrseite.
Wiederum auf der anderen Seite wollte ich nur kurz erwähnen, man muss nicht unbedingt
potente Hardware haben für sowas, denn Home Assistant bietet ja auch mit Home Assistant Cloud,
Produkt, die ich glaube das sind das 7 Dollar oder 7 Euro im Monat eine Subscription an,
wo du nicht nur die Erreichbarkeit hast, sondern auch dann direkt einen Zugriff auf deren
Voice und Text-to-Speech-Stack ist natürlich dann auch in der Cloud gehostet.
Ich weiß gar nicht was die nutzt, ich glaube sie ist ABS.
Aber dann ist das halt eine API und nicht das direkte Produkt, Amazon Echo oder so.
Das heißt, die nutzen dann Produkte, mit denen Amazon im Endeffekt ihr eigenes Alexa baut.
Dann braucht man sich nicht so einen riesen GPU-Server, wie ich da jetzt hingestellt habe,
hin, und der auch gut Strom kostet.
Das darf man auch nicht vergessen.
Dann kann man das auch nutzen und dieser Weg.
Also der Weg zur Cloud und zurück mit einem potenten Anbieter wie AWS und Co.
ist zehnmal schneller als was du gesagt hast mit dem Raspberry Pi, der dann irgendwie acht
Sekunden rumrödel und dann vielleicht ein Ergebnis darüber bringt.
Die natürlich auch die großen Modelle laufen lassen, die natürlich entsprechend GPU,
Arbeitsspeicher, was auch immer ohne Ende Du musst selbst eine 3080 hast, was ja schon für
einen Privatanwender, mal 7x24, schon höheres Level ist.
Ich will sagen, fast Luxus ist, was ja die wenigsten haben werden.
Die nutzen jetzt Asher oder AWS, auch immer.
Die nutzen ja auch so einen Hyperscaler hinten dran.
Das ist auch was, damals Microft...
Das mich irritiert, weil auch bei Mikeshroft im Boot Die hatten damals geworben, dass sie
einen privatsphärefreundlichen Sprachassistenten
Das erste was du machen musstest, du das Ding installiert hast, war, dass bei der Cloud
API Das war etwas kontrovers, aber die hatten das gleiche Problem.
hatten gesagt, du kannst alle Komponenten technischen Fähigkeiten betreiben.
Aber die hatten auch als Zielgruppe, so sind sie angetreten, das möglichst...
user-friendly zu haben.
kann man nicht sagen, dass schnell fünf Docker-Container die Backend-Infrastruktur Das ist
ja nicht user-freundlich.
Deswegen haben sie gesagt, es muss gut funktionieren, sonst hast du die User-Acceptance
nicht.
Aber es darf auch nicht so hoch komplex sein, dass es auch nicht technische Profis
benutzen können.
Mit Verbindung mit Privatsphäre haben sie gesagt, wir nutzen die Hyperscale, aber die
Anfrage geht zu uns.
Wir pseudonymisieren das ein bisschen, aber deine IP-Adresse wird maskiert, weil wir das
von uns aus hinschicken.
Die werden ersetzt durch die Microsoft Infrastruktur und dann geht es zu AWS oder Asher
und wird dafür verarbeitet.
Die haben eine Anonymisierungproxy-Schicht dazwischen geschaltet.
uh
Du zahlst ein paar Dollar im Monat, um aber du supportest damit die Entwicklung.
darf es vergessen, wenn man nicht im Alltag Aber ich finde es schön, dass das machen.
Das ist eine Wertschätzung an der Stelle.
Selbst wenn sie die Daten verarbeitet, damit die Qualität so wie man sie haben will.
um
Wenn du zu Hause sagst, dass das basteln das alles ok.
Da kannst du auch mal mit Falls Positive leben.
Aber wenn du das wirklich sagst, ist das ein Werkzeug, mir wirklich helfen soll im Alltag.
wenn die Familie damit arbeiten soll, ist da auch kein Verständnis mehr zu sagen.
Ja, also...
Wenn ich nicht die 3080 Laufende dann nutze ich die Hyper Scale oder die Nabukasa Cloud.
Ja und die 7 Dollar oder was auch immer der Preis ist, auf jeden Fall günstiger als die
Stromkosten für meine 3080, das kann ich euch schon mal sagen.
Plus die Initialen kosten natürlich auch noch und dafür brauchen wir auch...
Ach ja, das ist ein Rabbit.
gibt es denn da eventuell, ich meine die Nvidia, die ist ja jetzt auch, sagen wir mal eine
sehr generische Rechenpower, also du kannst ja für sehr viele Anwendungsfälle verwenden,
zieht ihr auch ihren Strom, gibt es denn eventuell Beschleuniger, die etwas mehr darauf
fokussiert sind, mir fällt da gerade ein in dem Kontext, das Thema Self-hosted, wie hieß
das noch, NVR, wenn du halt
Wenn du Sicherheitskameras bei dir installierst und du möchtest das alles zentral
speichern, die Videos, und die sollen eine Objekterkennung haben, da bin ich mir darüber
gestolpert, es gibt diese Sticks, die du irgendwie per USB mit dem Rechner verbindest.
Coral, genau.
Kann das da auch helfen?
Wissen wir das?
Erfahrung mit Google Calls.
Ich hatte mir von Nvidia ein Justin-Gerät geholt.
Ich kann es euch zumindest mal die Kamera halten.
Das so Teil.
Das habe ich mal gekauft, weil ich gemerkt habe, dass...
Ich mir das Gerät gekauft, weil ich keine Nvidia Desktop-Kafé Karte kaufte.
Ich Gerät geholt und habe dann aber festgestellt, dass es einen guten Kompromiss zwischen
Stromaufnahme und Stromverbrauch und den QDA Cores und den Rechenleistungen.
dass das Ding nicht der Performance Booster ist.
Das erste ist das halbwegs brauchbare Thorsten Voice Modell.
Das ich mit neuen Aufnahmen getrainiert.
Mit dieser Kiste.
Das ist der Jetson Xavier AGX.
So heißt es die offizielle Bezeichnung.
Was schätzt ihr denn wie lange dieses Ding 7x24 gerechnet hat bis wirklich das erste
brauchbare Thorsten Voice Modell rauskam?
setzt den Rahmen ja schon mal mit 7 mal 24.
Vielleicht bin ich euch auch nur in Irre führen.
Ich glaube nicht, ich sag drei.
Wir sind bei den 16 Stunden Aufnahmen.
Wir sind dann, da waren wir schon ein paar mehr Aufnahmen, da waren wir schon bei ein 20
Stunden.
Also in Summe gibt es mittlerweile ein 30 Stunden, glaube ich, an Aufnahmen.
Aber
schließe mich mal auch so bei den drei an, das klingt nach einem guten.
3-4 Wochen.
Also 3-4 ist richtig, das aber Monate.
Das Ding hat wirklich 3-4 Monate, natürlich hörst du regelmäßig mal rein oder so alle paar
Tage oder so alle zwei Wochen und lässt dir die mal Audio Test Dampels generieren und so,
aber es hat dann wirklich schon mit Modell und allem drum und dran und Voice Encoder, da
gibt es ja so ein paar Abschichtungen noch, 3-4 Monate gerechnet.
zwischen einem Modell trainieren und einem Modell nutzen.
Ja, ein Modell zu nutzen ist auch hardwareintensiv.
Deswegen habe ich hier meine 3080, weil die hat halt 24 GB RAM oder hier Graphic Memory.
Und ich könnte damit im Leben, ich könnte damit etwas trainieren.
Wird das auch ein Jahr dauern oder zwei oder drei?
Weiß ich nicht.
Das geht halt nicht.
Und genau das gleiche hast du auch.
Du hast jetzt, glaube ich, eine performante Plattform, etwas laufen zu lassen.
Ein Modell.
Mhm.
nicht, sondern nicht performant, ein Modell zu erzeugen.
Das ist ein ganz anderes Schüchen, was man sich da anzieht.
Das ist sehr interessantes Thema.
Das ist, das kann aber, Rückfrage zu dem Thema davor.
Du hast jetzt komplett von vorne das Modell erstellt, komplett neu getrainiert.
Das wäre aber nicht der Fall, wenn du, wie hast du es genannt, Modelle optimieren?
Feintuning, genau, Feintuning.
Genau, dann brauchst du weniger Trainingsdaten, weil es wirklich nur darum geht, nehme ein
Modell, vielleicht möglichst von den Parametern der Stimme vielleicht eine gewisse
Ähnlichkeit auch mit dir hat.
Also wenn ich sage, möchte ein Modell fine-tune, das ist aber eine weibliche
Opernsängerin.
Genau, das wäre vielleicht jetzt nicht so das beste Referenzmodell, wo du nur Fine-tuning
machst, sondern es wäre schon gut, wenn es ein bisschen in die Richtung geht.
Genau, da brauchst du weniger Daten zum einen und du brauchst aber weniger Rechenleistung.
Das sind dann schon die Momente, denkst, dass hier super hartwertige Kaufen hast.
auf einmal siehst du diese Grafiken, die den K.I.
Trainingsindikatoren siehst.
Wo ich auch dachte, wow, damit kannst du wirklich Leute beeindrucken.
du schickst und guck mal, diese 38 Diagramme sind gerade mein K.I.
Training.
Ich habe mir nur gehofft, keiner eine schlaue Rückfrage stellt.
Ich habe drei diesen 38 verstanden.
Wenn du Machine Learning Experte bist, dann kennst du die wahrscheinlich alle in-
auswendig.
Aber wenn du nicht so tief in der wirklichen Machine Learning Logik drin bist, dann hast
du im Laufe der Zeit herausgefunden, diese Handvoll Graphen runtergehen Wenn die
runtergehen und der Wert hoch geht, dann ist alles noch gut.
Aber Leute zu beeindrucken sind so Grafiken immer toll, aber ob man die dann wirklich alle
perfekt versteht ist dann die andere Frage.
Und am Endeffekt musst du auch immer nur hören.
Also die beste Grafik und der beste Pfeil der in die richtige Richtung zeigt bringt dir
nichts, wenn es schlecht klingt.
Das ist richtig.
Und kurze Frage noch zu dem Jetson.
Was hast du dafür bezahlt?
Einfach nur Kontext zu Ich habe keine Ahnung, was das Ding kostet.
Ich ich habe damals 600 Dollar oder sowas bezahlt für die Kiste.
Das ist halt 600 Dollar, das muss man mal über haben, einfach nur so zum Spielen.
Und dann dauert es trotzdem noch vier Monate.
Ich glaube, rückwirkend betrachtet hätte ich mir lieber eine brauchbare Nvidia-Grafikkarte
geholt.
Dann gesagt, dann muss die mal eine Woche, zwei, drei, ich weiß es nicht, hast du einen
Stromverbrauch.
Und kannst das schon im Alltag laufen lassen.
Du kennst das ja, wenn du die 3080 laufen lässt, weißt du, was an Strom braucht.
Ja, wenn man die Treiber hat und das rum eidet, sie alleine nur die Karte 40 Watt.
Das haut schon mal rein.
Das habe ich auch gelernt.
Ich dachte, ich kann die Karte reintun.
Und wenn ich sie in der VM nicht benutze, dann braucht sie ja keinen Strom.
Pustekuchen, das ist genau andersrum.
Die Stromsparfunktionen sind Teile des Treibers.
Das heißt, wenn du die reintust, verballert die einfach 90 Watt ohne Installation.
Wenn du den...
installierst, sind es dann 40 bei meiner speziellen Grafikkarte, bei hier natürlich anders
und im nutzbaren Szenario dann halt, ja, weiß ich nicht wie viel Watt die verballert, aber
da nutze ich es halt seltenst.
Das näher, wenn du ein LLM dann lädst, dann ist das LLM im Speicher drin, das verbraucht
dann nicht mehr, es eidet halt immer noch.
Wenn du dann aber einen Voice Command absetzt, dann geht halt kurz ein Peak hoch, aber das
ist wirklich nur eine Sekunde oder so und das kannst du nicht messen in meinen Augen.
Also zumindest nicht sinnvoll.
Das sind die Optionen.
Du kannst ja auch cloudbasierte GPU-Anbieter mit einigen Grafikkarten mieten.
Du musst ein paar Münzen einwerfen.
Du solltest nicht vergessen, System abzuschalten.
Wenn du sagst, dass dein Training fertig du hast vergessen, das Ding zu löschen, dann
kostet es trotzdem noch Münzen.
Da gibt es natürlich Möglichkeiten.
Oder du Google Colab benutzen.
Da gibt es auch eine Free and Paid Plan.
Mmh.
Ich Rundpod.io oder so.
Da gibt es ja verschiedene Möglichkeiten, du dir eine Cloud-Resource zeitweise mieten
kannst.
Das muss man abwägen.
Reicht mir das zu trainieren oder kaufe ich mir dann wirklich größere Hardware selber?
Lohnt sich das für mich oder bringe ich die Zeit mit?
Das sind so die verschiedenen Varianten.
Ich hab gerade mal kurz den Taschenrechner geöffnet.
Alleine schon diese 40 Watt für Eidl, ne?
Ich sag dir das trotzdem.
Also allein schon diese 40 Watt bei einem 30 Cent pro Kilowattstunde Tarif, würdest im
Monat 8,64 dafür.
Eben.
Also...
Ja.
finde, das ist halt, ich finde, das ist ein total interessanter Aspekt, weil die Leute
sagen, das muss alles nach Hause ins Lokale.
Ich stimme zu, aber der Zeitpunkt ist wichtig.
Vor einigen Jahren konnte man gar nichts lokal, also schon lange her, oder war es halt
schwieriger, viele Dinge lokal laufen zu haben, weil viel mehr habe was.
Ich glaube, das braucht immer so wie Torsten, eine große Unternehmen wie Google und Co.,
die ganz andere finanzielle Möglichkeiten haben.
Und irgendwann geht das halt mehr so, common good, das kann dann nicht im Endeffekt auf
den Toaster laufen.
Ich meine, der Raspberry Pi, erste, den kannst du ja auch nicht vergleichen mit dem jetzt,
Fimber.
Der Fimber hat ja richtig Power dagegen, der erste.
Das war ja richtig langsam.
Du kannst ja gar nicht mehr nutzen heutzutage auch, die Architektur ist ja schon veraltet.
Und deswegen haben MyCrafts, glaube ich, auch damals entschieden, dass ein Stack, ich
glaube der Text-to-Speech war es, der dann von Mozilla gehostet wurde oder wo auch immer,
dass das halt erstmal dann Cloudpart ist, weil das ist einfach noch nicht möglich mit
sinnvoller Hardware zu Hause.
Die aufwendigen waren ja Speech to Text, also die Eingang der Sprache in Text umzuwandeln
und dann die Ausgabe mit Text to Speech.
Wenn jetzt keine, es gibt ja auch mit eSpeak oder diesen ganz alten Linux-Verkennzfest für
diese Embroller-Stimmen.
Also die waren ja wirklich fiese roboterhafte Stimmen.
Super performant, muss man ja auch ganz klar sagen.
Und das ist auch so Thema, ich bin auch immer wieder mal mit Leuten aus der
Blind-Community im Austausch.
Das ist auch Thema, das ich noch mit den roboterhaften Stimmen in den 1990er
Die Leute, die super schnell sind auch sehr wichtig.
Ich die Bude auch warm.
Das ist ja auch Abhängigkeit und dann ist es ja auch so, Clouddienst haben wir definitiv
ihren Charme.
Du hast das nicht, du zahlst halt dein monatliches Entgelt und musst dich halt auch weder
die Infrastruktur kümmern, noch den Betrieb.
Und ich sag mal jeder der von uns einen gesunden Bastel und Spieltrieb hat, weiß, nur weil
du vor zwei Jahren mal irgendwie dir einen Prozess oder ein Setup aufgebaut hast, wenn du
das zwei Jahre einfach ignorierst, dann ist es wahrscheinlich kaputt.
zu sagen, ich habe doch vor 5 Jahren mal was aufgebaut und erwarte, dass das 7x24 perfekt
läuft, ohne dass ich da jemals nachgucke.
Das läuft ja so nicht.
Und bei einem Cloud-Anbieter hängen vielleicht hunderte von technischen Experten hinten
dran, die jeden Tag gucken und monitoren und sicherstellen, dass die ganzen Dienste auch
sauber und performant arbeiten.
Du zu Hause nicht.
Wenn du irgendwas seit 3 Jahren nicht benutzt hast und dann die Freundin auf einmal das
Kommandotriggert und sich dann beschwert, warum geht das denn nicht?
Das war ein Kollateralschaden.
Da habe ich irgendwas abgedatet oder umgebaut und das ist hinten runter gefallen.
Das ist...
Ne genau, nie gehört.
Die Sticker, was war das nochmal, die ich für Home Assistant Community Day gedruckt My Smart
Home works most of the time, all the time.
Ne, all the time, most of the time.
irgendwie sowas.
Ne, das ist...
nicht, wenn du nicht da bist oder wenn irgendwas nicht ist, dann geht es dann nicht.
Das ist ja auch immer so bisschen, das finde ich immer ganz spannend.
Frage, also diese typischen Szenarien, eigentlich keiner haben will oder an man nicht
denkt, egal wie gut du was vorbereitest.
Ich weiß, ein Freund von mir, hat auch mal mit einem Smartphone begonnen.
Die hatten gerade frisch gebaut und die hatten KNX verbaut.
Die hatten Lampen.
Da war der eine Schalter, der war...
Ein Schalter war noch nicht programmiert und er war auf Geschäftsreise.
In diesen KNX-Konfigurationen kannst du einstellen, was ist mein Verhalten nach
Spannungswiederkehr.
Wenn Stromausfall ist, wie reagiere ich?
Dieses Licht im Schlafzimmer, seine Frau war zu Hause zu dem Zeitpunkt, er war auf
Geschäftsreise, dann gab es einen Stromausfall, dann ist die Kacklampe im Schlafzimmer
angegangen.
Blutlicht.
Blutlicht an war und der Schalter war noch nicht parametriert.
heißt die Frau stand zu Hause und konnte im Schlafstuhl dieses kack Licht nicht
ausschalten und musste dann bis er nach drei Tagen nach Hause kam im hellen schlafen.
Das sind halt Dinge die kannst du dir so nicht ausdenken.
Da kannst du es super vorbereiten aber dann kommt die Realität und sagt, nee.
die macht ihr eine Backpfeife mit Rückhand.
Das ist einfach so.
Ja, dann versuchst du es doch irgendwie per VPN.
Aber wie das dann ist, dann geht dann das nicht und dann ist das noch nicht eingerichtet
und dann kommt dann das 100 zu 1000.
Also ich glaube, ich habe dann nicht mit ihm darüber gesprochen, aber ich glaube so
richtig lustig war seine Rückkunft dann nicht.
Wir hatten alle diese Fails bei uns.
Was der Staubsauger der Nacht anging, weil ich auf einer Party in einem etwas
angetrunkenen Freund mein Handy gegeben habe, und guck mal hier mein Smartphone, wenn
drückt auf Saugen.
Meine Freundin natürlich senkrecht im Bett und dann musste ich das im Nachhinein halt
fixen, dass das Nachts nicht mehr geht.
Solche Blödsinsaktionen halt.
Davor bist du nicht gefeiert, das geht nicht.
Das ist ja auch ein gewisser Punkt.
Also kann man es ja auch mit Humor nehmen.
ist ja auch jetzt nichts Schlimmes was passiert.
Vielleicht manchmal Ärgerlichkeiten oder so, aber es ist jetzt auch kein Weltuntergang.
Ja und generell auch bei diesen, wie gesagt, nochmal diese, ja, mache ich was lokal,
betreibe ich es lokal, mache ich es in der Cloud.
Wie gesagt, finde es einfach, Clouddienste sind gut.
Wie gesagt, du schmeißt ein paar Münzen ein, aber auch privat hosten ist nicht kostenfrei.
Du hast es gesagt, mit dem Strom hast du es ausgerechnet.
Plus du hast natürlich den Monitoringaufwand, du musst es betreiben, was ist wenn du nicht
da bist, wer kann dann eingreifen.
All diese Dinge muss man berücksichtigen, deswegen bin ich jetzt per se kein Niemand der
sagt, du darfst nie was in der Cloud machen.
Das hat durchaus Berechtigung.
Du aber auch wissen, dass du dich in Abhängigkeit begibst.
Das mag okay sein, wenn es jetzt Nice2Have ist.
Wenn es jetzt eine Smart Home Funktion ist oder eine Sprachassistenzfunktion ist, ist es
okay.
Wenn es mal weg ist, vielleicht weil Offline oder weil Dienstanbieter eine Störung hat
oder was auch immer.
Wobei die großen Hyperscaler wahrscheinlich höhere Verfügbarkeiten haben als das, ich zu
Hause in meinem Schrank stehen habe.
der Theorie, weil letzte Woche haben wir es ja auch gesehen.
richtig AWS war glaube ich letzte Woche ein Thema.
Ja und kein Staubsauger über der ganzen Welt.
Übertrieben natürlich, hat nicht funktioniert, aber egal.
Das zeigt dann mal, wie fragil diese ganze Konstruktion, diese Abhängigkeit ist.
Dann ist es eine technische Panne.
Das kann immer mal passieren.
Das kann dir zu Hause passieren.
kann immer mal passieren.
Aber das kann ja auch.
Ich will jetzt kein politisches Fass aufmachen.
Aber wir sehen ja gerade, was auch die transatlantischen freundschaftlichen Verhältnisse
angeht.
Wer kommt zuerst usw.
usf.
Viele Infrastrukturabhängigkeiten haben wir nun mal auch außerhalb der Europäischen
Gemeinschaft.
Wenn jetzt irgendetwas abgeklemmt wird, das okay, sagst, dass du Milch manuell eintippen
Aber was ist, wenn ein Hausschloss dann nicht mehr funktioniert?
Es gibt ja auch Smart Logs heutzutage.
zu dem Thema habe ich immer das Credo, lokales Hosting sollte das höhere Ziel sein.
Das ist aktuell nicht, also zu dem Zeitpunkt, was es halt gibt, ist es nicht immer
möglich.
Und das haben wir auch letzt, ich weiß nicht, letzte oder vorletzte Folge besprochen.
Man sollte sich überlegen, was für Hersteller von Produkten man sich mal ins Boot holt,
weil ...
Cloud ist manchmal notwendig, wenn man nicht technisch versierten Leuten zeigen möchte, du
kannst hier eine App installieren, dann kannst du alles machen.
Klick, klick, bunty, bunty.
Und dann läuft das auch.
Aber es ist nicht notwendig, um, wie bei dem AWS-Ausfall, Bett, welches sich heizen lässt,
dass du das nicht mehr ausschalten kannst, die Heizung, die den Hintern verbrennt, dass
das über die Cloud laufen muss.
Genauso auch ein Lichtschalter.
Das kann trotzdem lokal laufen.
Cloud kann ein additives...
Feature hinzufügen, was es aktuell einfach noch nicht einfach macht im lokalen Haus.
So sitzen, so haben die es glaube ich auch in dem Homesystem Credo mit drin.
Cloud ist Zusatz, es ist aber nicht keineswegs die Basis von allem.
Das ist auch...
Ne, mach ruhig!
wir reden gerade über Untersee-Kabel und die Abhängigkeit.
Oftmals ist es ja auch scheinbar schon der eigene Provider, der einem irgendwie nicht
stabiles Internet bereitstellen kann.
...
hat dein stehendes Bild gerade bewiesen.
Ich stand ja.
Schön.
danke.
Ich stelle mir vor, du bist im Urlaub und hast die Heizung auf eine Mindesttemperatur Das
System schaltet die Heizung an, weil es jetzt 13 Grad und sagst mindestens 14.
Die Heizung geht an und der Status, dass die Heizung jetzt auf 15 Grad Raumtemperatur
erreicht hat, wird nicht verarbeitet, weil die Internetverbindung mal weg war.
Die Heizung weiß nicht, dass es mittlerweile 15 Grad hat.
Mmh.
Ich bin kein Typ, der gute Frontends designt.
Ich bin beeindruckt, was Leute tolles bauen.
Ich habe ihm das bei mir gezeigt, was ich so habe.
Das war funktional, aber hässlich, muss ich leider zugeben.
der ist so, oh das war voll cool.
ein paar Wochen später war ich bei ihm mal zu besuchen.
Da hat er mir ein Tablet an der Wand gezeigt.
Richtig geile Visualisierung, super toll.
Warum fahr jetzt nicht so, Kollege, vor vier Wochen hast du noch nicht mal gewusst, was
ein Smart Home ist.
Ich habe das seit zehn Jahren gemacht und du echt nur funktional und dann sieht es richtig
geil aus.
Wie hast du das geschafft?
Ich war im Medienmarkt und habe ein Startup Kit gekauft, einem Anbieter, der jede Tür und
Fensterkontakt in die Cloud gefunkt hat.
Das Tablet hat die Daten für die Visualisierung aus gezogen.
Das nach 4 Wochen besser aus als alles, was ich in 10 Jahren zusammengestümpert habe.
Ja, Subscription.
Ich glaube es hat nicht mal ein Jahr gedauert, dann schrieb er mir eine Nachricht und
gesagt, dass er die Info bekommen dass er zum Jahreswechsel seinen Clouddienst einstellen
Und er konnte das auch nicht.
Ich weiß nicht was das für ein Technologist der war, er konnte das auch nicht flaschen mit
irgendwas anderem.
Der hat dann alles abgeschraubt, alle Tasten ersetzt und hat das Ding zum Recyclinghof
gefahren und einfach entsorgt.
Dann war das Thema durch.
heftig.
Das ist das Problem im Einzelhandel, funktioniert das halt.
Das ist schnell aufgesetzt, keine Frage.
Das ist zehnmal schneller als alles andere.
Wobei, wenn man sich heutzutage auch mal mit Homosexen beschäftigen würde, dann geht das
auch zack, zack.
Aber die Leute wollen es halt nicht.
Die wollen es halt fertig haben.
Homesystem macht einen super Job, weil sie einsteigerfreundlich
Wenn du Interesse hast an Smart Home, dann kennst du im Bekanntenkreis jemanden, der auch
schon was Smart Home gegoogelt hat, der das kennt und der dir bisschen Starthilfe geben
kann.
Der war grün.
Wenn du die NABUCASA Cloud anwenden kannst NABUCASA
Ich glaube, der Appetit beim Essen Also wenn du dann irgendwann in dem Thema drin bist und
selbst wenn du gestartet bist mit mir ist die Verfügbarkeit nicht so wichtig, weil ich
mach das nur als Spiele- und Bastelbaustelle.
Spätestens wenn du andere Leute vielleicht aus der Familie oder WG oder keine Ahnung was,
wenn du dann Leute dabei hast.
die
Ja, damit schwierig.
eigentlich interessant.
In der Geschäftswelt ist es ja häufig so, gilt der Leitsatz, wenn du irgendein, wenn du
das namhafteste Produkt nimmst, wenn du die Azure Cloud nimmst oder sonst was, dann bist
du fein raus, weil du hast ja, du hast ja das Produkt genommen, dem die ganze Welt setzt.
Muss nicht das Beste sein, aber es ist halt das etablierte Produkt.
Du bist fein raus.
Du gehst kein Risiko mit der Entscheidung ein.
Das gilt zu Hause nicht.
Du kannst nicht sagen, ja, ist ja in der Cloud gewesen, AWS hatte einen Ausfall, ich bin
ja fein raus.
Nein, bist du nicht.
bist ja auch nicht raus, wenn Dropbox down ist und das gar nichts mit dem Smartphone zu
tun hat.
Du bist verantwortlich für IT.
Genau.
Aber im Geschäftskontext ganz ehrlich gesagt, ja, der Anbieter hat einen Ausfall.
Aber was sollte ich denn machen?
Das ist halt der beste Anbieter.
Ich hab ja...
Mein...
Genau.
Ja, wir warten jetzt zusammen.
Komm, lass mal einen Kaffee trinken.
du bist der Support vor Ort, du musst dir den ganzen Frust anhören, du bist der First
Level.
genau, First Level, das trifft es gut.
Das hat ja nichts mit Sprache zu tun oder Smart Home oder Dropbox.
Es gibt ja diverse Beispiele.
Du bist bei Clouddiensten immer gut in der Nutzung.
Aber du auch abhängig davon, dass es funktioniert.
So wie alles im Leben, hat es zwei Seiten.
Hat alles seine Vor- Nachteile.
Ist dann und dann sinnvoll, dann und dann nicht.
Und das muss man einfach abwägen.
Ich man muss einfach nur das Wissen haben.
Und man muss wissen, was für Nachteile man hat.
Wenn man einfach nur kauft und konsumieren möchte, okay.
Und Geld ohne Ende hat.
Aber ich finde, ist halt eine Katastrophe, auch aus ökologischen Ansichten.
Das ist dann halt Technik, die einfach vor einem Jahr produziert wird oder wurde.
dass die dann einfach auf dem Müllhalter gepackt werden muss, weil die einfach dann
gebrickt wird von mit Firmen oder der Clouddienst halt nicht da ist.
Muss man sich einfach im Clan sein und das ist das Wichtige.
Wenn man das Wissen hat und dann immer noch dagegen entscheidet, dann sag ich, ja gut, da
kann ich nichts tun und das ist dann dein Problem, du hast dich bewusst dafür entschieden.
Völlig fein.
Das super, da kann ich dir absolut recht geben.
finde ich auch ein super Hinweis von dir.
Beschäftige dich einfach damit.
Egal ob das jetzt Smart Home ist oder ob das Cloud Dienste entweder Couleur sind oder ob
das Sprachtechnologien ist, das eigentlich egal.
Da gibt es auch keine richtig oder falsche.
Als ich als Amazonsprodukt rauskam, da gab ja Lagegebilde, gab es ja schon fast Krisen
innerhalb der Familie, da kauft man so ein Ding oder da kauft man so ein Ding nicht.
im Freundeskreis, da gab es dann extreme Befürworte, extreme Dagegenstimmen.
Das ist eigentlich egal, das muss ja jeder für sich individuell bewerten.
Aber denk halt drüber nach und sei nicht naiv und sag, da wird schon nichts passieren.
Sondern überleg dir, das sind die Vorteile, das sind die Nachteile.
Ich habe mich bewusst entschieden, jawohl ich mach das, ich nehme das so in Kauf.
Völlig fein.
kann man einfach nicht vergessen, die Alexhas und Wies...
Entschuldigung.
Selber schuld.
Wir haben es jetzt fast über eineinhalb Stunden oder so.
weiß nicht, wie lange wir jetzt sprechen.
Genau, wir reden hier.
Ähm, hey Siri?
Ne, also ich meine die Produkte von den großen die...
jetzt hat es echt nicht angesprungen.
Natürlich.
Was ich sagen wollte, das sind ja auch kleine Gateway-Drogen.
Also im Sinne von, man hat nie was davon gehört, dann holt man sich so ein Ding, egal von
welchem Hersteller, und dann guckt man, okay, ich möchte Folgendes machen.
Dann kauft man sich Produkt und dann kommt man vielleicht dann doch auf diese
Self-Wasting-Schiene und kommt dann doch zur Erleuchtung.
Und man kann ja nicht alles wissen, genauso wie ich mich nicht mit Autos auskenne und kein
Bock habe, mich damit zu beschäftigen.
Ich mache es nur minimal, sodass ich dann irgendwann eine Kaufentscheidung machen kann,
die sinnvoll ist.
Aber es ist halt auch eine kleine Gateway Droge, weil ein Auto kauft, da ist halt bisschen
mehr Geld hinter als hinter so einem Smart Speaker.
Das nimmst halt, weil wenn es ein Geburtstagsgeschenk sein kann, vom Preis her, dann ist
das halt schnell gekauft.
Und dadurch kannst du dich dann beschäftigen, kommst vielleicht dann irgendwann doch mal
auf so nerdigere Themen wie Home Assistant und dann, ja.
Du fängst mit irgendwas an, du bist auf einer hohen Flughöhe.
Richtig, ich kann noch meine KI-Stimme klonen, dann baue ich das kurz ein.
Super, ist der Tag auf den rum.
Wenn du dann merkst, dass du Bock darauf hast auf ein Thema der Leidenschaft, dann kommst
du immer dieses Rabbit Hole tiefer rein.
Du sagst, du hast nur das Smart Home, du hast was geholt.
Und dann, wenn du dann merkst, man lernt ja auch dann Leute kennen, die vielleicht sagen,
ich nutze deine Home Assistant oder nutze was anderes.
Es gibt ja auch andere Open Source Projekte, die das auch anbieten im Smart Home Feld.
Mmh.
und dann kommst du von einem Thema zum nächsten und dann kommst vielleicht irgendwann auf
den Trichter Self-hosting oder Teils-Teils, dann ist es nach dir auch.
kannst Clouds additiv oben drauf und machst doch die Kernfunktionen lässt die lieber
On-Prem oder lässt die quasi lokal bei dir zu Hause.
Und wenn du irgendwelche netten Luxus-Features hast, wo du aber sagst, ja das ist jetzt
auch kein Showstopper, wenn die mal jetzt offline gehen oder nicht funktionieren, dann
spricht dir erst mal gar nichts dagegen.
Dann hätte ich noch eine Frage zurück zum Thema Sprache.
du was geplant für dein...
Was ist dein Ziel jetzt?
Hast du ein neues Ziel mit deinem Sprachschatz?
Willst du mehr Modelle bauen?
Möchtest du das tatsächlich mal lokal laufen lassen?
Wie ist dein Ziel jetzt gerade?
Tatsächlich, ich bin gerade dran kämpfe noch gegen die Tücken der Technik.
Ich habe jetzt mal angefangen mit Orpheus TTS.
Das auch ein Open Source Framework, das jetzt auch schon ein Monate alt was ja in einem
Zeitalter von KI Geschwindigkeit schon fast schon Retro-Scharme hat.
Aber das ist auch eines der ersten, die jetzt diese Large Language Modelle mit einbinden.
Da lerne ich noch selber gerade, weil die klassischen Modelle wie jetzt Koki seinerzeit
oder Piper
Die hatten immer diese sehr neutrale Nachrichtensprecherbetonung.
Da ist egal, du jetzt eine positive Message übermittelst oder eine negative Message.
Dieses Modell wird immer neutral betonen.
Das ist natürlich auch für die Akzeptanz schwierig, weil du willst ja eigentlich auch,
wenn du gewisse Dynamik...
Das ist sehr faszinierend, da schlafen die nicht die Füße ein.
Natürlich brauchst du diese Nuancen und diese emotionalen Kontexte und das ist auch das,
was auch Off-Voice und andere moderne Text-to-Speech-Frameworks haben.
Das ist auch ein für die Emotional-Dynamik, der Kontexte bringen kann.
schon mal ein erstes Modell zu machen.
hat einige Sätze echt gut gesprochen und andere Sätze, wo ich dachte, da ist überhaupt
kein Sonderzeichen drin und das System sagt einfach nur irgendwie glibberisch, wo ich sag
so, warum, da ist nix drin, System.
Keine Komplexität, keine Fremdswörter, keine kryptischen Sonderzeichen und ja.
Aber ja, tatsächlich ist das noch so.
Bin ich dran.
Kannst du denn da jetzt mit deinem bestehenden Sprachmodell weiter daran arbeiten oder ist
es wieder...
Du brauchst wieder die Daten in einem anderen Format oder es müssen andere Daten anders
eingesprochen sein, damit die mit solchen Modellen funktionieren?
Da bin ich jetzt noch dran.
Die KI kann nur das reproduzieren, sie kennt.
Eine KI weiß nicht standardmäßig, wie betonig euphorisch oder deprimiert Die language
Modelle können vielleicht aus einem Satz textuell erfahren und das wäre jetzt lustig.
Das setzt dich aber nicht in die Lage, lustig zu betonen.
Du brauchst natürlich Trainingsdaten, getaggt sind.
Das sagst, ich habe hier 10.000 Sätze aufgenommen, 3.000 lustige.
Die sind aber auch so markiert, dass die KI sagt, ok, dieses Phoneme in der Emotion lustig
klingt so, dieses Phoneme in der Emotion traurig klingt so.
Es kann tatsächlich sein, dass ich da noch mal hinter das Mikrofon gehen werde und noch
mal getaggte
Datensätze aufnehmen, ich sage, okay, wirklich, aber jetzt nicht übertrieben, sondern so,
wie man es auch vielleicht auf natürliche Art machen würde.
Meine emotionale Datensätze, die waren sehr oben drüber.
Also da ging es wirklich sehr deutlich, die Emotionen rauszuarbeiten.
Aber im Alltag würdest du jetzt nicht immer gleich so extrem in die Emotionen verfallen,
sondern einfach Nuancen haben.
ist ja nicht nur emotionale, nein, das ist ja auch ein Spektrum.
Das ist ja auch sehr abhängig von der Persönlichkeit.
Es gibt Personen, freuen sich richtig und laut und total happy.
Und es gibt Personen, sagen, ja, finde ich gut.
Die nordische Freude ist vielleicht eine andere als die nordischen.
Ich würde jetzt eh keinen Smart Speaker betreiben, permanent mit meiner Stimme arbeitet.
Ich könnte heute schon mit der Dabu Casa Cloud eine nette Frau oder andere Männerstimme
nutzen.
Das wäre jetzt kein Problem.
Ich möchte das gerne machen, ich sehe, dass meine Stimme genutzt wird.
Vielleicht eine lustige Anekdote, denn wir nehmen das heute an einem Sonntag auf.
Ich habe gestern am Samstag eine Mail bekommen von einer Linux User Group, die eine
hessische Dialektstimme in der Heuteshow am Freitag auf dem ZDF gesehen haben.
Das klang so surreal, dass dachte, ist doch eine Spam-Mail.
Aber ich habe sie trotzdem mal gelesen.
Das klingt authentisch, aber nicht, dass man mich fragen müsste.
Wie gesagt, ist ja mit Teil des Themas.
Aber die Heuteshow wäre ja zu...
zu abwegig und habe dann wirklich mal reingeguckt.
Es ging jetzt nicht persönlich um mein Projekt oder mich als Mensch, aber meine hessische
Stimme wurde gezeigt im Rahmen von einem KI-Themengebiet, wo aus der
Wie wahrscheinlich ist es, dass so eine kleine Nerd-Baustelle gestartet 2019, die einfach
als Open Source-Sprachspende und dass die mal so Gastauftritt in der ZDF-Heute-Show haben
wird?
Das ist so unwahrscheinlich und ich freu mich halt total natürlich.
tue Gutes und sprich drüber, dann kommen irgendwann die Leute.
Das ist immer so.
Und wie du auch gesagt hast, ich hatte auch Leute, die mich wieder am Mikrofon und fragen,
was dem Freundeskreis dem Kollegenkreis mache.
Ich sage, ich kenne meine Stimme, bin sicher, da wird keiner nur einen Cent für ausgeben.
Ich sage, ich brauche damit auch kein Geld verdienen.
Mir macht das Freude, ich mache das gerne.
Und diese positive Rückmeldung, dass eben Leute etwas nutzen, das ...
Das ist mehr wert als einmal, wenn mir Euro für vorbei bringt.
Das heißt, du verdienst kein Geld mit deiner Stimme.
Du ja gesagt, du bist ja in der IT wie auch immer dann geartet und dann das reicht als
Hauptjob, das reicht auch.
Ich habe das große Glück, ich einen Job habe, mir sehr viel Spaß macht.
Ich liebe die IT.
Es gibt ja auch genug Leute, dass den ganzen Tag im Büro am PC und die Technik nicht mehr
sehen Ich klappe das Arbeitsnotebook zu und hole mir etwas Neues zu trinken.
Ich klappe das Privatnotebook auf und dann geht weiter.
Deswegen habe ich das große Glück, dass ich meine Leidenschaft sowohl beruflich als auch
privat ausleben darf.
war das für mich völlig selbstverständlich, dass ich sagen wenn jemand meine Stimme
brauchen kann, doch super, möge man sie nutzen.
Hoffentlich für was Positives, was immer ich als positiv fand, auch wahrnehme.
Ja, und das ist, ja.
Das heißt, dich reizt es mehr, so dieser Stimmteil, diese bessere Stimme zu haben, als es
tatsächlich dann auch im Alltag nutzen zu können, was deine ursprüngliche Idee mal war.
Mittlerweile.
Ja definitiv.
Das Thema künstliche Sprachausgabe ist jetzt auch kein Mainstream Thema.
Dass du nicht auf einer Party im Mittelpunkt stehst.
Es ist eine kleine Nische, aber ich finde sie total wichtig.
Ich glaube, die kann aber in den Mainstream kommen, was ich ja sehr interessant finde als
Use-Case ist, wo ich jetzt, wo ich vor einigen Monaten eine Tochter bekommen habe, wie
cool wäre das denn, wenn du einfach Bücher kriegst und die dann mit deiner Stimme vertont,
ohne dass du das jedes Buch einzeln lesen musst, halt vorlesen lassen kannst.
Das ist einfach, glaube ich, eine tolle Sache, die man machen kann.
Und wenn das richtig gut funktionieren würde, könnte ich mir vorstellen, dass das gerade
bei Eltern richtig gut ankommen könnte.
Ich glaube, die Möglichkeiten, wie wir mit Technik und Stimme umgehen, im Umbruch Ich
glaube, die Möglichkeiten sind unglaublich hoch.
Glückwunsch zur Vaterschaft!
Ich voll egoistisch.
denken die Leute, ich bin voll der Egomane.
Hin und wieder google ich auch mal Thorsten Voice, zu gucken, ist denn so.
Gibt es irgendwas Spannendes?
Hat jemand vielleicht auf einer Webseite irgendwas veröffentlicht, wo man das nicht hat?
Man muss das nicht tun und so.
Trotzdem, eine gewisse Neugierde möge man mir nachsehen.
Und dann hat auch mal jemand in einem Forum geschrieben, dass er für seine Tochter
tatsächlich Geschichten erzählen lässt mit meiner Stimme.
Also das tut mir jetzt ein bisschen leid für die Stimme, aber für die Tochter, nicht für
die Tochter.
Ich weiß auch nicht, das...
Also der hat mir dann geschrieben, ja, ich mach das.
Ich las dann auch Geschichten irgendwie vertonen.
Und...
Also, wie gesagt, vielleicht hat derjenige auch mittlerweile attraktivere Stimmen
gefunden.
Ich würde es der Tochter wünschen, aber...
Ich finde es halt eine tolle News-Case, wie du sagst.
Irgendwann nimmst vielleicht die eigene Stimme, mit diesem Zero-Shot-Voice-Cloning oder
Fine-Tuning, wo du selber das relativ einfach machen kannst.
Was natürlich jetzt nicht...
Ich meiner Tochter ans Bett und lese ihr persönlich was vor und stelle ihr nur meinen
Smart Speaker hin, der mit meiner KI-Stimme vorliest.
Das eine sollte das andere nicht ersetzen.
Quatsch, wo dann alles wieder umgedreht wird mit 200 Zeichen.
Genau richtig.
Deswegen glaube ich, dass die Möglichkeiten ganz immens sein werden.
nur es auszusprechen, man kann es nämlich erweitern.
man zum Beispiel auf Dienstreise ist, dann kann man das eventuell nicht vernünftig
vorlesen, dann ist das eine schöne Ergänzung.
Man natürlich nicht die Zeit klauen.
Ich bin gespannt was da kommt und ich glaube wirklich, dass da noch einiges kommen wird.
noch, also die letzten Jahre war es natürlich eher nischig, wenn du so Fälle hörst wie
glaube Open Air und Scarlett Johansson, die hatten ja auch immer so ein Thema, wie sagt
man so schön neudeutsch, bisschen beef.
Ob das jetzt die Stimme ist oder nicht, das weiß ich jetzt gar nicht genau oder
zumindestens gab es die Vermutung.
glaube, das war auch die Schauspielin, die ich meinte.
Ich wusste nicht mehr, dass sie damals so hieß.
Ich glaube, kann sich auch den einen oder anderen Anwalt leisten, der das sehr gut
vertreten kann.
Aber wenn jemand aus einem Privatumfeld die Stimme geklont wird, hast du vielleicht nicht
die Medienaufmerksamkeit, die Macht oder die finanziellen Möglichkeiten, dich immer
vollständig zu wert zu setzen.
Ich glaube, da spielt man auch oder da führt man einen Krieg, den man gar nicht gewinnen
kann.
wenn das, nehmen wir mal an, dass es jetzt perfekt möglich ist, mit einem 30 Sekunden
Schnipsel die perfekte Stimme zu virtualisieren, sage ich mal, ich weiß nicht, ob das der
richtige Begriff ist.
Genau.
Da kannst du nichts gegen machen.
Das ist genauso wie zu sagen, nein, nein, du darfst auf gar keinen Fall diese MP3
kopieren.
Das werden Leute machen.
Das ist Fakt.
und sich da hinzustellen und sagen, nee, das ist verboten, das ist illegal, wie damals in
den 2000ern die Raubkopier, DVD und Musikindustrie.
Ich glaube, ist einfach der falsche Ansatz.
Man muss gucken, was kann man mit diesen tollen Dingen, mit dieser Technik jetzt weiteres
machen und nicht einfach nur auf die Verbotsschiene gehen.
Also wenn man die Verbotsschiene reitet, dann verliert man einfach, wenn man nicht mehr
der Technik spielt und vielleicht auch keine coolen Angebote macht.
Was könnte die Dame trotzdem machen?
Ohne ihre Zeit könnte sie
Hörbücher vorlesen lassen für Fans, unbedingt Harry Potter in Taylor Swift Stimme hören
möchten.
Weiß ich nicht.
Blödes Beispiel, aber da gibt es halt bestimmt tolle Sachen, man macht.
Ich kriege auch öfters mal Mails, wo Leute sagen, ich würde gerne die Stimme von dem
Schauspieler von dem irgendwas digitalisieren und klonen, damit ich die nutzen kann.
Und jetzt bin ich kein Jurist und dann sage ich immer, denkt an Persönlichkeitsrechte.
Das ist jetzt mal völlig egal, ob das technisch aufwendiger oder leichter ist.
Nicht jede Stimme, die in der Öffentlichkeit irgendwo zugänglich ist.
Ich nicht, dass du mit der im Austausch stehst und die sagt, das passt für mich.
will jetzt keinem zu nahe treten, aber ich würde das mal einfach annehmen.
Das ist so Thema und ich glaube, dass wir uns da auch so ein bisschen als Gesellschaft
darauf einstellen müssen.
Du kannst diesen Zug nicht wirklich aufhalten.
kannst jetzt nicht einfach ...
Aber am Ende weg, musst vielleicht mit Leuten sprechen und sagen, pass mal auf, Thema
Enkeltrick, Thema Betrug, Thema irgendwas.
Gerade wenn jetzt auch noch die Emotionalität reinkommt.
Früher konnte man sagen, also wenn ich jetzt anrufe bei meiner Frau, der Eltern oder der
Familien, was auch immer, ich sag ...
Ich stehe gerade am Flughafen und brauche Geld, weil die Polizei mich nicht gehen Bitte
überweise mir Geld auf folgende E-Bahn.
Dann könnte ich jemanden dass er nicht so authentisch klingt, wie er vielleicht wäre, wenn
er wirklich irgendwo stehen würde.
Wenn er die Emotionalität mit reinkommt, wird es unter zeitlicher Druck.
Vorbereiten oder ein darauf einstellen müssen dass sich Dinge dafür ändern was das
Vertrauen in Stimme angeht glaube ich das ist einfach ein thema was egal ob man das gute
oder schlecht findet das wird einfach kommen
Ja, das ist auch spannend.
Ich interessiere mich so ein bisschen für diese Szene, dieser Scammer.
Also Scam Center vorläufig in Indien.
Die haben da einfach große Gebäude mit hundert Metern weit.
Aktuell ist das ein großes Problem, hauptsächlich in UK und USA wegen Englischsprachigkeit
halt.
Dort ist der Akzent natürlich jetzt noch sehr stark bei den meisten Leuten.
Ich meine, jeder, der nicht Englisch perfekt spricht, der hat einen leichten Akzent.
Und das wird dadurch bisschen einfacher.
Irgendwann wird das auch so sein, dass du das halt live so umwandeln kannst, dass du halt
akzentfrei auf einmal sprichst.
Dann kann er sagen, dass es hier John aus Pennsylvania ist.
Und aktuell ist Deutschland noch nicht so ein Angriffsland in dieser Szene, weil Deutsch
halt nicht so einfach als Sprache ist.
Aber es ist trotzdem lukrativ, weil hier verdammt viele Leute wohnen, die mehr Geld haben
als andere Länder.
oder in anderen Ländern, die mehr Geld verdienen als in anderen Ländern.
Daher könnte das demnächst ein potenzielles Angriffsland sein für dieses Scam Call Center.
Und dazu passt auch der letzte, ich weiß nicht, wo ich das gelesen habe, auf Hacker News,
ich, da gab es mal, oder auf LinkedIn war es, ich, da gab es ein Interview mit jemandem,
also ein Bewerbungsgespräch.
Dort war die, die Person hat sich vorgestellt, das war auch in echt der Fall.
Und danach ist sie einfach gegangen, aber der Avatar, die Stimme, war halt noch weiterhin
da und hat das Interview für die Person geführt.
ja, das ist Fakt, das ist passiert jetzt schon.
Damit muss man sich einfach mal auseinandersetzen.
Sobald die deutsche Stimm-Generierung ja auch die gleichen Ausmaße hat wie im Englischen
von der Qualität her, müssen wir uns mit dem Thema hier auch richtig heftig beschäftigen.
Wobei es zwei Disziplinen gibt.
Das eine ist die Stimmgenerierung, das andere ist aber auch tatsächlich der Inhalt.
Ich bin gestern auf Reddit gelandet und habe mir eine Antwort durchgelesen zu einem Thema,
das ich gesucht habe und dachte mir, ist Deutsch an sich?
Also das passt, aber die Art und Weise, wie formuliert wurde, war skurril.
Hat sich herausgestellt, ja, ich bin auf der indischen, auf irgendeinem indischen, wie
nennt sich das bei Reddit?
separated.
Ja, danke, bei auf einem indischen Subreddit gelandet und ja, Davod hat einfach deutlich
förmlicher gesprochen.
Was gesagt wurde, war aber fein.
Das wird noch spannend und vor allem für die Generationen, die sich damit gar nicht
Auseinandergesetzt haben und gerade Video.
Wenn Stimme ist, Stimme ist ja, hast du ja auch schon erwähnt Horst, Podcast ist ja auch
so ein Thema.
Man fühlt sich ja voll verbunden mit der Person, wenn man einen Podcast immer wieder hört,
weil das sehr nahe ist.
Wie viel näher als dem Ohr kann man einem kommen, ohne den direkten körperlichen Beziehung
aufzubauen.
Das ist halt aber auch so und der Mensch reagiert da darauf.
Man hat dann immer das Gefühl, dass man die Person sehr, gut kennt.
Zumindest fühle ich mich auch so mit Leuten, denen ich zuhöre, dass ich danke, dass ich
sie kenne, nur weil ich die ein paar Stunden höre in der Woche.
Und wenn dann noch Video dazu kommt, dann wird es halt sehr überzeugend.
Ich das habe ich immer mal gesehen oder gehört, dass auch YouTuber, wenn du den Leuten
sehr...
also wenn die quasi Teil deines engsten Umfeldes werden, weil du die teilweise öfters
siehst oder in dem Fall auch hörst, egal ob Podcast oder YouTube oder Videos, die der Art.
Du hast so das intuitive Gefühl, die gehören zum Inner Circle, ob jetzt innere
Freundeskreise oder Familienkreise.
Die siehst du ja teilweise öfters als deine besten Freunde oder die Familie.
Das ist richtig, ja.
Du vielleicht anfälliger, wenn dir eine Person, die du eigentlich nicht kennst, aber
trotzdem Teil deines Lebensgefühls ist, sogar zum inneren Kreis sich reingemogelt hat,
eine Empfehlung ausgesprochen.
Das muss keine Kaufempfehlung sein, aber kann auch Lebenstipps was auch immer sein.
Du hast gar nicht die Reflektion zu sagen, Moment, die Person an sich ist eine fremde
Person, die hat mir nichts wirklich zu sagen.
Die hat mit mir gesprochen und ich nie mit ihr.
Das ist ein Kanal.
richtig.
Und das ist dann auch das Risiko, was du sagst.
Du hast ein Vertrauensverhältnis und das ist dann auch leicht auszunutzen im Zweifelsfall.
Was mir vielleicht noch eingefallen ist, auch vielleicht noch mal ein Shoutout in diesen
ganzen Open Source Communities.
Wie gesagt, wir hatten ja jetzt schon ganz viel drüber gesprochen, dass es die großen
Konzerne gibt und so weiter.
Ich weiß nicht, ob ihr schon mal gegoogelt habt, wie viele Sprachen auf dem Planeten
gesprochen werden.
Nee, ich war schon schockiert, ich gesehen habe, dass allein Indien schon 70 Stück hat,
gefühlt.
Wenn mich diverse Quellen von Wikipedia nicht anlügen, dann werden ungefähr 7000 Sprachen
gesprochen.
Okay, das hätte ich jetzt nicht erwartet.
Ich hätte eher so einen Hunderterbereich erwartet.
Wenn man sich überlegt, wie viele Länder wir dann hätte man mit so einer Zahl gerechnet.
Ich mag es noch ein paar geben, aber 7000 hatte mich massiv irritiert.
Und jetzt guckt ihr die großen Konzerne an.
Natürlich haben jetzt große Sprachen wie Englisch ganz weit vorne, aber auch Deutsch,
Spanisch, auch Asiatische Sprachen, da Modelle, weil es einen Markt gibt.
Die großen Konzerne, investieren ja jetzt nicht Compute Power und Mitarbeiterressourcen
und so weiter, weil sie Wohltäter sind per se, sondern die investieren ja in Märkte, wo
auch ein Return of Invest kommt.
Und ich habe irgendwann mal auch eine Mail bekommen,
Ich weiß nicht, es war eine afrikanische Sprache, ich krieg sie gar nicht mehr zusammen.
müsste die Mail auch noch mal raussuchen.
Der hat gesagt, hey dank deiner Videos, die du mal gemacht hast, war ich jetzt in der Lage
für unseren Dialekt oder unsere Sprache, die nur von ein paar tausend Menschen gesprochen
wird, ein KI-Modell zu erstellen.
Und kein Amazon würde jetzt sagen, was, diese Sprache wird von 2000 Leuten auf der Welt
gesprochen, dafür stelle ich jetzt mal ein halbes Jahr ein Projekt hin zusammen, würden
die niemals machen.
Und das finde ich halt...
so toll an diesen Open Source Möglichkeiten, diesen technischen Möglichkeiten sind, dass
da eben auch vielleicht Zielgruppen, die sonst übersehen werden, weil sie auf der
Weltbühne als Sprache überhaupt nicht auftauchen, dass die die Chance haben da eben auch
zu profitieren von.
Auch da gibt es Menschen, die Einschränkungen haben, die auf Barrierefreiheit angewiesen
sind, die digitale Teilhabe, da gibt es ja Passwirts ohne Ende.
Das finde ich total wichtig und schön, dass Open Source eine Lücke schließen kann, wo die
Kommerziellen aus wirtschaftlichen Interessen nicht reingehen wollen würden.
Das macht es halt total spannend, wenn man dann ein Sprachmodell hat, ...
was ja komplett frei und in Restriktion nutzbar ist.
Das darf man halt nicht vergessen.
Das ist das Schöne an, was ich meine, Kontrolle aufgeben.
Kontrolle hört sich immer so negativ an, ...
ich finde, Kontrolle kann auch ...
also Kontrolle aufgeben kann auch total positiv sein, ...
weil du hast ...
...
du alleine würdest nie auf die Idee kommen.
Du hast gar nicht die Fähigkeiten, diese Sprache zu sprechen ...
...
und dieses Modell dafür zu nutzen.
Das geht einfach nicht.
So dann kommt da jemand um die Ecke und macht etwas, ...
...
wo du in 100 Jahren nicht drauf kommen würdest.
Ich finde auch das Wort Kontrolle an sich.
diese Illusion, man eine Kontrolle über irgendwas hat.
Ja, ich kann jetzt kontrollieren, wie viel Finger ich hochzeige oder sowas.
Ich habe ein paar Sachen, ich beeinflussen kann.
ich sage mal so, die Tatsache, dass wir heute sprechen, das kontrollieren ja nicht wir.
Wir sind abhängig davon, dass der Techniker, der die Internetleitung wartet, dass der
einen guten Job macht oder wir sind abhängig davon, dass, keine Ahnung, der Typ auf dem
Stuhl, auf dem ich gerade sitze, dass der im Werk einen guten Job gemacht hat und dass die
nicht unter meinem Hintergrund zusammenbricht.
was haben wir wirklich unter Kontrolle?
Deswegen aufzugeben und sich dessen bewusst zu werden, dass man selber ganz wenig
kontrollieren oder beeinflussen kann.
ist so viel auf andere angewiesen.
Dieser Gemeinschaftsgedanke finde ich total angenehm.
noch was, soll das dabei belassen oder...
das war gerade ein schönes Abschlusswort.
Unter meinem Hintern wegbrechender Stuhl ist ein gutes Abflusswort.
Gemeinschaftsgefühl, man dass man dann etwas für die Öffentlichkeit weggeben kann und dann
wird daraus Gutes und mehr Gutes und Dinge, die man sich nicht denken kann.
Also ich hätte jetzt tatsächlich keine Themen mehr, aber wie gesagt...
Das finde ich schön.
Ich finde, das passt ganz gut.
Ich bin auch komplett der Meinung, dass...
Ich kann vielleicht noch mal eine Anekdote ziehen zu einem Spiel, das ich mal gespielt
habe, so einem Training, weil das passt ganz gut.
Ich war mal vor einem Jahr oder zwei auf Lehrgang, Schulung, wie auch immer man das nennen
möchte.
Da wurde das, ich glaube, das hieß das Game of Life gespielt.
Da hat man die unterschiedlichen Stadien, der Mensch hat im Endeffekt nachgespielt.
von der, hey, wir setzen uns zusammen und wir sind Bauern und dann gibt's einen Häuptling.
Daraus wurde dann ein Start in den nächsten Level.
Das war ein Spiel, das haben wir über zwei Tagen gespielt.
Das war ganz spannend, die Dynamik zu sehen.
Am Anfang waren alle sehr defensiv und haben ihre Ressourcen verteidigt.
Kontrolle.
Die wollten nichts abgeben.
Und über die Zeit hat man dann gemerkt, wenn man diese Kontrolle hat, dann kommt man immer
in diesen Modus hin.
Okay, da müssen wir jetzt auch Waffen bauen oder Kriegsschiffe.
In diesem Kontext war das.
Und jeder wollte sich voneinander schützen, dass die anderen das nicht wegnehmen.
Und irgendwann kam man dann zu dem Thema Neuzeit.
Und dann kamen dann so Problematiken wie, lustigerweise wurde das Spiel vor der
Corona-Pandemie entwickelt, gab es das Szenario, eine Pandemie hat die Menschheit besucht.
Haben wir jetzt ja durchgespielt, Spiel.
Zumindest einmal.
Und da war es dann ganz wichtig.
im Zuge der Regeln des Spiels, dass man mit das Starten arbeiten musste.
Jeder Staat war so fünf Personen, jeder hatte seine Rollen, Finanzen, Baugravi, auch
immer.
Und das war ganz spannend, weil hätte man das nicht gemacht, wäre jeder Staat an sich
komplett krepiert an dieser Pandemie.
Weil die Forschungsgelder, die Forschungsgeräte, waren verteilt, das sind verteilte
Ressourcen gewesen.
Und wenn man dann hat verstanden hat,
in den Regeln des Spiels, dass man sich hier jetzt leider verwundbar machen muss, aber
halt auch öffnen, nur dann kommt man weiter.
Und das war schon so ein krasser Moment in dem Spiel, wo man dann gesehen hat, ja, das ist
manchmal sehr, sehr wichtig, das zu tun.
Und das hast mit der Stimme im Endeffekt gemacht.
Ja.
Dann läuft das schon, ja.
Ja, sehr cool.
Willst du nochmal sagen, wo du und deine Projekte zu finden sind?
Wir schmeißen natürlich ein paar Link auch in die Show Notes rein.
Ja natürlich kann ich gerne machen.
natürlich der Projektname Thorsten Voice ist ja heute schon zwei, drei Mal gefallen.
Da gibt es auf der Webseite ein paar Infos.
Da gibt es auch Links zu den Datensätzen, die man runterladen kann.
Ein bisschen Dokumentationen, auch wenn ich die vielleicht noch ein bisschen abrunden
müsste.
Aber ja, da gibt es schon durchaus Starthilfe, wie man die Stimme auch einsetzt.
Wer generell so bisschen Interesse an dem Thema hat, ich freue mich natürlich, wer sich
mit mir auf YouTube da connecten möchte, auf meinem YouTube-Kanal gleich lautenden
Thorsten Voice.
Da versuche ich immer mal so bisschen
technische Tutorials zum Thema Text-to-Speech und was es so Neues gibt.
Generell auch auf Github unter Thorsten Müller bin ich zu finden.
am Ende alle Links kann man auf der Webseite finden und ich bin sicher die beiden Kollegen
werden die auch in die Show Notes vielleicht in einen oder anderen Link reinpacken.
Hugging Face wäre jetzt sagt, okay ich...
Ich deine Stimme gerne mal nutzen und ausprobieren, habe aber weder Lust auf etwas lokal
zu installieren, der kann auf Hackingface in so Space direkt auch Text eingeben,
auswählen, hessisch, hochdeutsch, wütend, wer sich mal spontan anbrüllen lassen will von
mir kann das machen.
muss man nicht mal Geld für bezahlen.
Ne, genau, ich meine, wir können gerne im Nachhinein, da kann ich euch weiter auch privat
noch anbrüllen, das geht auch ohne KI, nein Quatsch.
wer können das?
Nein, aber wer will, kann meine Thorsten-Wolster-Fucking-Faces auch auf der Homepage
verlinkt nutzen.
Du brauchst also auch keinen Login oder irgendwie, dass du die Daten eingeben musst,
einfach Text eingeben, sprechen drücken und Wavefile runterladen und fertig.
Das cool, das wüsste ich gern, dass man bei Hagen-Kreis macht.
Gut, dann sag ich mal, Thomas muss das Abschlusswort sagen.
Vielen Dank Thorsten, ich fand es mega spannend.
Und an euch, auch, wir sehen uns, hören uns beim nächsten Mal wieder.
Viel Spaß beim Hören.
Ciao.
Danke euch, ciao!