Решал такую задачу много лет назад, и именно через (не сигма, но простейший) дельта-модулятор. Опыт повторил лет 5 назад, результат - уже на 10МГц качество ЦАПа (при соответствующем синтезе, то есть того же дельта-модулятора на входе) было соизмеримо с качеством среднего CDюка от Panasa (к сожалению, только на слух), и это при полном отсутствии ФНЧ и прочего (в качестве ФНЧ были наушники от Panasa и собственные уши). Но ШИМ тут не работает, работает, грубо говоря, обычный RC аналоговый интегратор при правильной оцифровке (синтезе).
Делал и такую штуку - раскачивал аналоговый сигнал на ОУ, выводил его среднее на порог срабатывания, совал прямо на вход ПЛИС (Xilinx XC2018, ох, давно это было), тактировал килогерцами 5-ью (чистое, но качественное клиппирование речи), далее таблица 8 в 8, и вывод с этой самой XC2018 прямо на 8-ми разрядную R-2R резисторную цепь, усиливал и... получал 98-ми процентную слоговую разборчивость (меряли на Госкомиссии, то есть хорошо меряли). Так что, могут быть и варианты. Дерзайте и не бойтесь всякой непотребной нелинейки преобразования

))