А что за фразы нужно воспроизводить?
Давным-давно нужно было сделать "звонилку" абонентам, чтобы зачитывала фразы и формировала сумму задолженности.
Все разбивалось на фонемы, которые потом просто собирались (с учетом всяких "рубль", "рубля" и тд) и отправлялись на voice-модем (2000г - под руками ничего ембеддерного тогда не было

)
ну и плюс анализ с ффт линии - КПВ там, голос абонента и прочее
Возможно, и в этом случае можно сделать нечто подобное. Файлы просто хранить как константный массив, не в виде файлов