Форматы звуковых файлов
Рис. 6.20. Звуковая плата с выносным модулем Aadvark Aark |
Как уже говорилось, любой звук можно представить в виде конечных числовых отсчетов. Именно совокупность этих отсчетов составляет основу любого звукового файла. Помимо «чистой» информации о звуке, файл содержит некоторую дополнительную информацию, тоже представленную в цифровом виде — как правило, это коды, позволяющие той или иной программе «читать» звуковой файл, либо определенные формулы, адаптирующие конкретный звуковой файл
6.2. Оборудование рекламной записывающей студии |
|
Под возможности звукового редактора. Иногда в заголовке файла содержатся формулы, реализующие его сжатие (компрессию) по определенным алгоритмам, что позволяет уменьшить объем файла.
Для звуковых программ звуковой файл выглядит как текст, который необходимо расшифровать и прочитать. Если в программу не заложена возможность расшифровки стоящего в начале файла кода, то говорится, что программа не поддерживает данный формат.
Многие сложные профессиональные программы обработки звука сохраняют звуковые данные в собственном уникальном формате, который является «родным» только для этой программы и не читается никаким другим звуковым программным обеспечением. Как правило, собственный формат имеют многодоро - жечные редакторы, которые сохраняют не отдельный звуковой файл, а их группу. В этом случае файл содержит информацию не только о самих звуках, но и об их взаимном отношении по времени, высоте, громкости и т. д., об операциях, которые проводились со звуками в данном редакторе, ряд служебных сведений — расположение меток, контроллеров, ссылок и др.
В условиях дефицита дискового пространства встает вопрос о методах сжатия звуковых файлов или их «компрессии». Основная цель компрессии звуковых файлов — сокращение объемов памяти, необходимой для хранения информации, или пропускной способности каналов связи для ее передачи.
Звук после оцифровки представляется в виде последовательности отсчетов (или «сэмплов»), соответствующих значениям амплитуды, взятым через равные промежутки времени. Эти промежутки обратно пропорциональны частоте сэмплирования (квантования). Такой способ представления звука называется импульсно-кодовой модуляцией — или PCM (Pulse Code Modulation). Эта схема сохранения информации о звуке является наиболее «непосредственной» — в файл записываются абсолютно все значения диск- ретизированного сигнала. При этом неизбежны большие затраты дискового пространства.
Среди разработанных методов компрессии основными являются: ADPCM (Adaptive Delta PCM — адаптивная относительная PCM) — разновидность PCM, когда отсчеты представляются не в абсолютной форме, а в виде относительных изменений (delta) амплитуды. Это позволяет сократить разрядность отсчета до 2-4 бит, уменьшив при этом общий размер оцифровки, однако не позволяет точно представить сигналы с быстро меняющейся амплитудой.
MPEG — метод сжатия звука, предложенный MPEG (Moving Pictures Experts Group - экспертной группой по обработке движущихся изображений). По аналогии с методом сжатия изображений, основанном на преобразованиях цветового спектра, Audio MPEG использует преобразования спектра звука. Этот метод избирательно отбрасывает некоторые звуковые данные, что приводит к довольно внушительному сжатию при сохранении высокого качества воспроизведения. Можно достичь коэффициента сжатия вплоть до 12 без ощутимых потерь качества звука. Существует три уровня (layers) Audio MPEG для сжатия стерео сигналов: MPEG-1 — коэффициент сжатия 1:4 при потоке данных 384 кбит/с; MPEG-2 — 1:6..1:8 при 256..192 кбит/с; MPEG-3 — 1:10..1:12 при 128..112 кбит/с.
Windows Media Audio (WMA) от Microsoft. Алгоритм WMA, также как и все рассмотренные ранее, позволяет потоковое воспроизведение (stream playback). Качество WMA при скорости потока 64 Кбит/c практически не уступает качеству MPEG-1 Layer III 96 Кбит/с, а при 96 Кбит/с может превосходить MPEG-2 AAC 128 Кбит/с. Для хранения потока в формате WMA используется универсальный потоковый файловый формат. ASF (Advanced Audio Streaming), пришедший на замену. WAV. Вообще говоря, .ASF — это универсальный формат для хранения аудио и видео информации, сжатой с помощью самых разнообразных кодеков. .ASF имеет также и свою несколько сокращенную разновидность. WMA. Файлы. WMA предназначены исключительно для хранения аудио данных. Говоря о WMA как о кодеке, следует сказать, что в последнее время он становится все более популярным, так как Microsoft встроила его в Windows'2000, превратив его таким образом в стандарт.
Перейдем теперь непосредственно к звуковым файлам. WAV. Наиболее распространенным сегодня является формат. wav, имеющий к тому же значительный набор спецификаций, изрядно пополнившийся за последнее время. Все. wav-файлы (Waveform Audio File Format) относятся к категории RIFF-файлов. RIFF-файл не является собственно файлом с расширением. riff. Напротив, это словосочетание означает только способ организации данных внутри файла. RIFF (Resource Interchange File Format — формат файлов передачи ресурсов), введенный Microsoft и Intel, позволяет хранить и передавать мультимедийные данные вместе с соответствующими описаниями, параметрами, форматами, разметкой для использования в семплерах и т. д. Иногда RIFF сравнивают с базой данных, размещенной в одном файле. Wav формат содержит оцифрованный звук (моно/стерео), с несколькими вариантами разрядности (8/16/24 бит), с разной частотой дискретизации.
MIDI-формат содержит не сам оцифрованный звуковой сигнал, а только управляющую информацию для устройств, совместимых с MIDI-интерфейсом (СМ. главу по MIDI).
MOD — широко распространенный формат, используемый в программах-трекерах. Содержит оцифровки инструментов и партитуру для них, отчего примерно одинаково воспроизводится на компьютерах с разными звуковыми платами. В оригинале поддерживаются четыре канала, в расширениях — до восьми и более.
STM — формат Scream Tracker, примерно того же уровня, что и MOD. S3M — формат Scream Tracker 3. Развитие STM в сторону увеличения разрядности инструментов и количества музыкальных эффектов. Сам ST3 поддерживает до 32 каналов, но не поддерживает предусмотренных в формате 16-разрядных самплов.
RA — Real Audio или потоковая передача аудиоданных. Довольно распространенная система передачи звука в реальном времени через Интернет. Полученный звук обладает следующими параметрами: 8 или 16 бит и 8 или 11 кГц.
Для профессиональных синтезаторов (Korg / Roland / Kurzweil / E-mu / Ensoniq и др.), в конструкцию которых входят сэмплеры, выпускаются банки сэмплов, имеющие формат этих синтезаторов (один из наиболее распространенных — например, форматы AKAI, Audio, E-mu). В последнее время особую популярность приобрел формат GIG — формат, содержащий библиотеки сэмплов для полностью программного сэмплера Gigasampler.