Hi JoergZ,
bin mal vor einer Zeit auf Kalliope gestoßen (https://github.com/kalliope-project/kalliope/tree/master) aber auch auf MyCroft vor kurzem.
Um ehrlich zu sein habe ich Kalliope noch nicht genau angeschaut, weil es noch nicht soweit ist, aber das Konzept schien mir recht einfach.
Zudem würde ich mir es zutrauen die TTS/STT die dort verbaut ist auch umzuabuen und eine eine Lokale Instanz laufen zu lassen. Gibt mittlerweile einige KI Ansätze die sehr gut Funktionieren und auch
sich viel besser anhören. Aber das muss ich noch genauer validieren ob das "so einfach" geht und wie viel Rechenpower das benötigt.
Von Mozilla gibt es ein STT Deepspeech (https://github.com/mozilla/DeepSpeech). Habe mal nach einer kurzen Recherche aber gemerkt das es einige zur Auswahl gibt. Habe mich noch nicht genauer damit befasst. Wollte erstmal schauen ob es sowas gibt.