Der bruges utallige milliarder på at forske og udvikle på talegenkendelse i hele verden, men det rent teknisk et af de mest komplicerede områder.
Det ville naturligvis hjælpe en del, hvis hver enkelt deltager havde sin egen mikrofon (forudsat at programmet du bruger kan optage og behandle flere lydkilder samtidig).
Men det ændrer stadig ikke på, at måden og "flowet" i en naturlig samtale foregår til et møde, vil være rigtig svært for et talegenkendelsesprogram at forstå til fulde. Det kan da muligvis fange størstedelen af ordene (hvis alle taler pænt rigsdansk), men der vil stadig gå meget tabt.
Problemet er at computeren og talegenkendelsen i sig selv ikke er intelligent tænkende som vi mennesker er. Når man mennesker hører ord og lyde, så fortolker vi dem, putter dem ind i sammenhæng og skaber derudfra ord og sætninger som passer ind i din rette kontekst.
Hvis ordene bliver sagt i forkert rækkefølge, udtalt forkert, mangler eller bare sagt helt forkert ord, så gætter vi og danner stadig som regel den korrekte sætningsstruktur der var tiltænkt.
Sådan fungerer en talegenkendelses-software slet ikke, selvom der arbejdes mere og mere i retningen i at "gætte" på ord og sætninger så de giver sammenhæng, når ordet ikke kan genkendes præcist.