Когда-то, как и все наверное, очень интересовался данной темой. Читал книжку с картинками (осциллограммами и спектрограммами).

По сути - исследование в данной области.
Так вот одним спектральным анализом не обойдёшься. (Хотя я бы и за это не взялся бы) Одна и таже буква, произнесённая одним и тем же человеком, но стоящая в разном окружении имеет совершенно разный спектр частот. Поэтому вводятся и распознаются фонемы. Или даже целиком слова. Далее, что очевидно, выполняется работа сопоставимая с переводчиками которые вы ругали. То есть чтобы распознать текст его надо ПОНЯТЬ. Вот в этом то и возникает загвоздка в настоящий момент
По рзелульаттам илссеовадний одонго анлигйсокго унвиертисета, не иеемт занчнеия, в кокам пряокд рсапожолены бкувы в солве.
Галвоне, чотбы преавя и пслоендяя бквуы блыи на мсете. Осатьлыне бкувы мгоут селдовтаь в плоонм бсепордяке, все-рвано
ткест чтаитсея без побрелм. Пичрионй эгото ялвятеся то, что мы не чиатем кдаужю бкуву по отдльенотси, а все солво цликеом