C, PHP, VB, .NET

* Митовете на аудиофилията – 192/24 музиката

Публикувано на 07 февруари 2014 в раздел Музика.

В последните години масово се наложиха аудио записи без загуба на качество. Увеличихме си дисковите пространства и това вече стана възможно. Може би най-популярният формат за слушане на музика вече е flac, а добрите стари MP3-ки бавно, но сигурно ще отидат в историята. Това разбира се е добре - компресията със загуба води до по-малки файлове, но и до загуба на качество на звука. Напоследък обаче се стига и по-далеч - вече започват да се предлагат множество записи с 96kHz на 24 бита и дори 192kHz на 24 бита. Рекламират се (и хората масово вярват), че това е по-добро качество от стандартния запис на CD, който е 44,1kHz на 16 бита или DAC формата (използван най-масово при компютрите) 48kHz на 16 бита. Дали е така? В статията по-долу стъпвам основно върху еквивалентната (и вероятно по-подробна и по-добра от моята) статия в Xiph.Org - общността за разработка на свободен стандарт за разпространение на музика, които разработват форматите FLAC, Vorbis и други. Възможно е да има и разминавания (или неточности в моята - в такъв случай вината ще е само моя).

Какво е звук и как го възприемаме?

Първо нека си отговорим на въпроса "какво е звук". Ето и дефиницията на уикипедия:

Звук е надлъжна механична вълна - трептене на материята, което се предава като периодична промяна на налягането (вследствие сгъстяване и разреждане на средата) и се възприема от слуховия апарат. Когато дадено тяло трепти, в заобикалящия го въздух възникват звукови вълни. Те предизвикват налягане върху тъпанчето на ухото, в резултат на което се получава възприятието за звук.

Тоест ние възприемаме звука чрез ушите си. Ухото е един изключително сложен орган и не смятам да го разглеждам в детайли тук. Трябва да се знае главно, че то е дистантен анализатор - периодичните колебания на звуковите вълни се улавят от него, след което се трансформират от механична енергия (промяна в налягането) в нервни импулси. Тези нервни импулси са нашето субективно усещане за "звук". Може би от училище сте чували, че ухото на човека се състои от три основни части - външно, средно и вътрешно ухо. Външното ухо има функция да насочва звуковите вълни към средното ухо, като същевременно с това и го предпазва от нараняване. Чрез средното ухо звукът преминава в механична енергия без да се променя неговата честотна характеристика. Функция за това изпълнява "тъпанчето" - представете си го като мембрана, която трепти с цел да компенсира разликата в налягането отвън с тази вътре в ухото (използва помощта на "евстахиевата тръба"). Тези механични трептения на тъпанчето се улавят от слуховия анализатор във вътрешното ухо и се превръщат в нервни импулси.

Слуховите рецептори на вътрешното ухо се намират в т.нар. "охлюв". В зависимост от положението на рецептора вътре в охлюва той приема точно определена честота:

cochlea-and-responses — Източник на снимката

Това, което трябва да знаем, е че ако липсва рецептор за дадена честота, ние няма как да я чуем. Направете си аналогия с радиото (аналоговото) - когато тунера ви се намира точно на дадена станция (рецептора е нагласен на точната честота) вие ще чувате станцията чудесно. Дори съвсем леко помръдване на тунера започва да внася шум. При по-голямо преместване, независимо че сигнала на станцията може да е чист и силен у вас, вие вече няма да чувате нищо от звука на станция. Тоест нужен ви е рецептор, за да можете да чуете. Логично, нали?

И сега най-важното - човешкото ухо има рецептори за честоти на трептене в обхвата от 20Hz до 20kHz! Това е изследвано не веднъж и не два пъти от много учени. При това забележете, че това е максималния регистриран обхват при здрав млад човек. Колкото повече остаряваме, толкова повече се повреждат рецепторите ни и започваме "да губим честоти" (предимно в границите на своя слуов обхват - рядко вътре в него). Даже може да сте чували някой да ви казва: "чуваш ли от време на време леко пищене в ухото си - това е бил последния път, в който си чул звук на тази честота". Плашещо, но не много далеч от истината.

В едно изследване направено през далечната 1933г. са изчислени следните граници на чуване спрямо силата на звука:

threshold-of-hearing-and-pain — Източник на снимката

Виждате, че за да чуваме дадена честота, звука от нея трябва да е достатъчно силен - например най-ниските и най-високите честоти трябва да са със значително високи децибели, за да бъдат уловени. Но има и горна граница на силата на звука - тази, при която "ни се пука тъпанчето". Тя също не трябва да бъде прекрачвана. Горната графика е търпяла известни ревизии и критики (най-вече свързани с границата на болка), но като цяло отговаря на действителността за средностатистическия човек. Общоприето е, че опасната граница, от която вече започваме да увреждаме своя слух, е 96dB.

Обратно към темата за аудиофилството. Някои хора ще продължат да са скептични и ще кажат, че например композиторите и професионалистите са си тренирали слуха и чуват повече от останалите. Това наистина е вярно - те наистина чуват повече... но в обхвата от 20Hz до 20kHz! Забележете, че дори да съществува човек със "свръх ухо", който има допълнителни рецептори за допълнителни честоти, звука трябва да е толкова силен за да бъдат доловени, че този човек вероятно ще оглушее за всичко останало. А когато говорим за слушане на музика (да, това всъщност е нашата тема) - този, който е записвал музиката трябва специално да е предвидил тези допълнителни специални честоти в записа си. Няма логика да го прави - той самия не ги чува. И за капак - все пак хора със "свръх ухо" все още не са открити на тази планета. Затова приемаме категорично научно обоснования факт, че абослютната долна граница на чуване е 20Hz, а абсолютната горна 20kHz. Самите вие най-вероятно имате по-висока долна и по-ниска горна. Ако сте живяли в шумен град, особено в близост до трамвай, категорично вече нямате "свръх ухо", дори и да сте го имали :)

Дигиталната музика - що е то?

След като знаем що е то звук и как го възприемаме, трябва да си обясним и какво всъщност съдържа музикалния файл. Знаем, че на компютъра записваме данните "цифрово". Звукът който чуваме пък е аналогов - ние нямаме компютърни чипове в главата си (все още). Значи трябва да има някакъв начин за преобразуване на аналоговия сигнал (който чуваме) в цифров (за да бъде записан като файл) и обратно (това вече е горе долу ви е ясно - чрез усилвателя към колоните, чийто говорители трептят спрямо подадения към тях електрически ток). Преобразуването на аналогов сигнал в цифров е особено важно за качеството на музиката, която слушаме - звукът от инструментите и гласа на певеца трябва да бъдат обработени достатъчно добре, за да няма "загуба на информация". Подобна загуба може да отнеме от дадени честоти или да внесе неприятен шум. Значи задачата на този етап е ясна - как да конвертираме аналогов сигнал от диапазана 20Hz - 20kHz в цифров?

Най-често, когато търсите информация по темата, ще видите графика със синусоида, която представлява дадената честота на трептене - това е непрекъснатата функция, която е звуковия сигнал, който трябва да се запише. Да, но когато записваме на компютъра ние можем да регистрираме само конкретни дискретни стойности - например да отчетем текущото състояние на синусоидата. Затова стойностите се записват дискретно и графиката представлява ето това:

Тази графика е само нагледна - реално нещата не стоят така. Дължината на стъпалцето (хоризонталните части на червената линия) е период от време на записа, в който сме регистрирали една единствена стойност. Тоест на всяко стъпалце ние всъщност сме записали само една точка! Този процес се нарича дискретизация - от една непрекъсната функция ние взимаме проби (samples) в дадени точки, които са на равни интервали от време един от друг. Най-голямото неразбиране идва именно от тук - червената линия в графиката се приема за сигнали, който ще се пускат директно към говорителите и хората го мислят за накъсан и неточен. Какво биха казали за това например:

Изглежда ужасно, нали? Можем ли да си представим, че това е възможно да е запис, в който няма никаква загуба на качество? Не е ли по-добре да скъсим интервалчето колкото се може повече и по този начин стъпалцата да станат колкото се може по-наситнени и така да са все по-близо до оригиналната синусоида?

Не, не и не! Нагледното представяне е измамно и интерпретацията по този начин е напълно некоретна! Тук ние не целим да копираме оригиналната крива - ние само записваме само отделни нейни стойности, чрез които после я интерполираме. Интерполацията е метод, при който дадена таблична функция (зададена чрез стойностите си в отделни точки) се замества от аналитична (зададена чрез формула от типа y=f(x)) по такъв начин, че стойностите на аналитичната функция във възлите на интерполиране да бъдат равни на съответните таблични стойности на табличната функция. Сигурно прозвуча сложно за човек, който не е учил числени методи в университета. Простичко казано ние НЕ пускаме към колоните си тези "стъпалца" от червената графика - при преобразуването от цифров към аналогов сигнал ние им пускаме отново съвсем плавна и гладка синусоида. Тоест при записа на аналогов звук в цифров имаме регистриране на непрекъснат сигнал-синусоида в таблица от дискретни стойности през определен период от време, а при обратното преобразуване на цифров към аналогов звук ние имаме алгоритъм, чрез който от тази таблица с дискретни стойности ние конструираме отново "гладък" непрекъснат сигнал-синусоида. Ъъъ, така де, опитах се да го обясня възможно най-простичко и без формули, не знам дали се получи :)

Кога няма загуба на качество при интерполацията?

Ясно е, че ако имаме прекалено малко стойности за "табличната функция" (цифровия запис), ние няма да успеем да възстановим оригиналната синусоида 1:1. Увеличавайки регистрираните стойности, ние повишаваме ефективността на алгоритъма и доближаваме оригинала. Математиката обаче в случая ще ни покаже, че съществува момент, в който ние достигаме абсолютно точно оригинала и добавяйки нови регистрирани стойности ние не подобряваме нищо. Какво ни говори това ли? Това ни казва, че от един момент нататък е безсмислено да наситняваме интервала за регистриране на стойности повече - ще записваме излишна информация, която не ни дава допълнителна точност!

Ето и разковничето за намирането на границата "на наситняване" на интервала за регистриране на стойности от синусоидата - теоремата на Найкуист-Шанън. Най-добре позната е под името "the sampling theorem" или, жалък опит за превод, "теоремата за взимането на проби". Без да навлизаме в сложните технически подробности, в тази теорема се казва следното:

T. Ако функцията x(t) няма честоти по-високи от B херца, то тя е напълно детерминирана (определена) от нейните ординати в серия от точки, които са разпределени на 1/(2B) секундни интервали една от друга.

Казана по опростен начин - за да запишем звук с честота X е напълно достатъчно да запишем дискретни стойности с честота 2X.

Хайде сега обратно към човешкото ухо - ние чуваме максимум до 20kHz. Според тази (математически доказана!) теорема е напълно достатъчно да "наситним" интервала на записа до максимум 1/40000 от секундата, за да можем впоследствие да възстановим записа без да има загуби на качество! Тоест достатъчно е да записваме стойността на синусоидата 40000 пъти в секунда, за да можем да я възпроизведем чрез интерполация 1:1. При това увеличавайки броя регистрирани стойности за секунда ние не подобряваме абсолютно нищо - просто записваме излишна допълнителна информация, която не носи никаква полза за интерполацията (смятаме повече, а получаваме същия резултат). Или в крайна сметка - 40kHz sampling rate теоретично е напълно достатъчен, за да запише перфектно музиката, която слушаме!

Ако това е така, защо тогава CD е на 44,1kHz, а не на 40kHz?

Логичен въпрос - по този начин те затапват и ти дават пример, че в дадена ситуация са избрали по-висока честота на записа от иначе уж перфектната за теб (40kHZ). Да не би да има разлика между теория и практика?

Причината за лекия "oversample" (увеличаване на честотата) е в това, че при звукозаписа е нужно сигналите да се пуснат през т.нар. "low pass" филтър, преди да се запишат (и да станат "готови за консумация"). Най-простичко казано - отрязват се прекалено високите и прекалено ниските честоти (които ние тъй или иначе не можем да чуем), за да се предотврати евентуалния ефект на aliasing. Проблемът (от практиката, а не от теорията) идва от тези филтри при звукозаписа - те не са перфектни. Затова се използва т.нар. "transition band". Колкото по-широка е границата му, толкова по-икономично и лесно се прави "anti-aliasing" филтъра. Именно поради тази причина при стандартизирането на цифровата музика на компакт диск от Сони са си дали малко по-широк интервал, т.е. правят лек "oversamplе", за да компенсират евентуалните грешки в звукозаписните филтри. Всъщност този интервал е доволно увеличен - все пак става въпрос за звукозаписната техника от 70-те години на миналия век! От Филипс са настоявали за стандарт 44kHz на 14 бита, докато от Сони 44,1kHz на 16 бита. Това "0,1" всъщност е дошло заради видео записите в PAL и NTSC, но това е друг въпрос, с който ще разводним темата. О да, и за битовете също ще говоря по-надолу.

А защо при саунд картите на компютрите е 48kHz?

Нещо започнахме да увеличаваме sample rate напук на теорията, а? Тук вече имаме наличие на наистина остарял математически трик. Числото 48 е избрано хем да е кръгло, хем да може да се затрудни пиратството на музика, но пък не прекалено, че да не може да се извършва от професионална техника. През 1987г. извършването на преобразуване на sample rate e било трудно за бавните компютри при отношение 147:160 (44100:48000). Е, това вече не е фактор, но... наследили сме си го от тогава и така си продължава да е и до днес.

Супер качествени ли са супер качествените записи - 96kHz и 192kHz?

Абсолютно излишни са и на теория, и на практика! Първо звукозаписните компании не записват нищо под 20Hz и над 20kHz, защото няма човешко ухо, което да го чуе. Ние записваме музиката за хората, а не за кучетата и слоновете, нали? Тоест по-висок sampling rate категорично не е нужен за перфектното (loseless - без загуба на качество) записване на музика! Но дори да приемем, че все пак пожелаят да запишат излишните честоти, да тогава ще им е нужен и ще използват по-висок sampling rate, но това пак няма да има абсолютно никакъв ефект при слушането на музика - ние няма да чуваме честотите, които са ни записали. Казано по друг начин: за човешкото ухо записването на музика на 96 или 192kHz е излишно хабене на дисково пространство и не води по никакъв начин до подобряване на качеството на музиката!.

Да бе да, а защо тогава звучат по-добре?

Ето тук вече влизаме в сферата на психологията. Когато обясняваме горните работи на някой аудиофил, той се подхилква и в крайна сметка казва: "ок, нека формулите са си така както казваш, но на мен 192/24 си ми звучат по-добре". Тук има две възможни обяснения:

Ефектът "плацебо": самозаблуждавате се, че е по-добре, и тя наистина ви звучи по-добре. През годините са правени редица тестове, които категорично потвърждават този психологически феномен. Най-известен начин да ви бъде демонстрирано заблуждението е ABX теста. Пускате компютърна програма, в която има четири бутона - A, B, X и Y. Чрез бутон A и бутон B избирате две еднакви песни, едната записана с "високо качество", а другата с "ниско". Компютърната програма генерира произволно число, чрез което свързва A с X или Y и съответно B с Y или X. Натискайки X вие ще чуете или песен A или песен B, но няма да знаете коя точно от тях - това остава скрито за вас. Съответно вие слушате X и Y и се опитвате да познаете коя е по-качествената песен, а компютъра накрая ви показва дали сте били прави или не. Досетихте ли се какво се случва масово при този тест? И най-големите аудиофили не успяват да открият разликата между 44,1kHz и 192kHz музика! В едно често дискутирано изследване на Boston Audio Society например се е оказало, че от 554 опита с всякакви хора - от най-обикновени, до професионалисти, - тестираните са познавали вярно в 49.8% от случаите. Това еднозначно означава, че са налучквали!
Различни мастери: о да, когато ви продадат SACD, то наистина е записано на 192/24, но НЕ е това причината записа да звучи по-добре. Просто техния запис е с добър digital remaster. Казано по друг начин - продали са ви различен звук от оригиналния, който имате на CD от едно време. Тоест сравнявате вкуса на круши и ябълки, а не сравнявате два еднакви плода. Тук също има "лечение" за аудиофилите. Ако вземете един такъв 192/24 запис и му направите downsample до 48/16 вие еднозначно ще изгубите допълнителната информация - безспорно. След това на новия 48/16 запис му правите oversample до 192/24 (с което вие няма как да му увеличите качеството - тези истории с безкрайното zoom-ване на снимките ги има само по филмите). Накрая си правете ABX тест с оригинала и новия запис. Досетихте ли се - никаква разлика няма да има за вашето ухо, освен ако нарочно не сте прецакали процеса на downsampling/oversampling. А защо правим oversample, а не сравняваме директно с 48/16? За това изчакайте информацията за "няколко магазинерски трика" в края на статията!

Или дотук еднозначно заключението е - всичко над 40kHz е само разхищение на дисково пространство. Точка, край на дискусията :)

Ами 24 битовите срещу 16 битовите записи?

Дотук си ги влачихме тези битове, но не казахме какво са. Те имат отношение към силата на звука - децибелите, които определят нашия "динамичен обхват". Долната граница на чуваемост я фиксираме като 0dB (това е и причината да виждате понякога нещо, което е премерено с отрицателни децибели - звучи странно, но е съвсем нормално, защото мерим спрямо самите нас, а не спрямо абсолютната 0 - вакуум), а горната колкото излезе - толкова. Още в началото на статията показахме, че има както долна граница на чуваемост (въпросните 0dB), така и горна - границата на болка при която се пука тъпанчето (140dB). Въпросните битове ви дават число, което отговаря на "колко децибела над долната граница на чуваемост е текущата стойност". Горе казахме, че при CD ние наситняваме интервала за взимане на проби на 44,1kHz, т.е. взимаме 44100 проби в секунда от оригиналния запис. Е всяка една проба всъщност е едно 16 битово число!

/Старт на наивното обяснение/

Всеки един бит има две стойности - 0 или 1. Значи 16 бита ще бъдат 16 двойки от такива стойности. Възможните комбинации между тях са добре познатите на всеки един програмист 65535. Или ако приемем, че числото 0dB е долната граница на нашия слух, а 140db е максимума, то с 16 бита на проба ние можем на "наситним" интервала от 0 до 140dB на 65535 части. Казано по друг начин стъпката (точността) на записа ще е със сила на звука от приблизително 0,00214dB. Това е изключително малка стъпка, нали? Бихме ли могли да я доловим с нашето ухо?

Можете лесно да си направите аналогия с компютърните екрани. Знаете, че има 8 битов цвят (256 цвята), 16 битов цвят (65536 цвята), 24 битов цвят (16777216 цвята) и най-често използвания 32 битов цвят (4294967296 цвята). Ако превключите монитора си от 32 битов на 16 битов цвят определено ще забележите някаква разлика - образът няма да е лош, но преливанията на цветовете няма да са съвсем плавни. Но ако направите тест между 32 и 24 битов цвят няма да видите никаква разлика. Причината е, че човешкото око може да различи максимум 10 милиона цвята (най-оптимистичните научни статии казват така) и 24 битовия цвят е с повече от 50% в отгоре над нашия лимит. Виждате, че застраховката на 32 битовия е с над 429 пъти повече от нашето човешко възприятие! Е, връщайки се обратно на аудиото - в динамичния обхват на човешкото ухо 16 битовия звук е нещо като 24 битовия цвят на монитора - леко презастрахован, т.е. рецепторите на ухото ни нямат как да доловят разликата. А 24 битовия звук по аналогия ще нещо по-скоро като 33-34 битов цвят на монитора ни - свръх презастрахован спрямо нашето ухо!

/Край на наивното обяснение/

И сега стоп, стоп, стоп - в горните параграфи (отбелязани като наивното обяснение) всъщност ви послъгах сериозно! Реално се прави нещо доста по-различно от простичкото наситняване на интервала - в практиката се използва по-сложен процес, който е наречен "квантизация" (quantization). Тук вече говорим за връзка между входния волтаж на аналоговия сигнал и записваната дигитална стойност. Като резултат от процеса, поради закръглението на стойностите което неизбежно (независимо колко битов е записа) се прави, при преобразуване на аналогов в цифров сигнал винаги се появява грешка, която в крайна сметка се проявява като допълнителен шум - квантизационен шум (quantization noise)! Процесът е по-сложен за обяснение, но най-простото нещо, което трябва да знаем от него в ролята си на потребители, е т.нар. SQNR - signal-to-quantization-noise-ratio. Най-лесната формула, по която можем да си го изчисляваме, е следната:

SQNR = 6,02*QdB

Стойността 6,02 е приблизителна. В тази формула "Q" е броя битове. Например при 16 бита имаме SQNR 6,02*16 = 96.3dB. Какво означава това? Съвсем най-най-просто казано това означава, че при звук по-силен от 96,3dB ще се появи този допълнително довнесен в записа квантизационен шум, който вече ще е доловим от човешкото ухо. Именно това приемаме и за "динамичен обхват" на звука - при 16 битовия звук приемаме, че динамичния обхват е от 0 до 96dB, защото в този обхват допълнителния шум, който сме довнесли чрез закръгленията, няма да е доловим от човешкото ухо. В този интервал звука ще е "чист" и няма да има доловими от човешкото ухо изкривявания, т.е. ще приемаме, че е "без загуба на качество". По-силен от 96dB = при 16 битовия запис ще има проблеми. За улеснение може да използвате следната таблица за SQNR:

bits   SQNR
4      24.08dB
8      48.16dB
14     84.28dB
16     96.33dB
20     120.41dB
24     144.49dB

И сега какво се оказа - 16 бита все пак не са достатъчни, за да покрият динамичния обхват на човешкото ухо, който е от 0 до 140dB? Да така е, това е напълно вярно, 16 бита не са достатъчни. Но тук има и друго нещо, което е силно съществено - никой не желае да си пука тъпанчетата, нали? При 140dB ние ще си спукаме тъпанчетата моментално. При 130dB ще увредим слуха си за броени секунди. Един пневнатичен чук на разстояние 1 метър ще даде 110dB - това определено може да ни накара да паднем на земята, а представете си какво е нагоре. В концертните зали звука се усилва до не повече от 80dB. Нужен ли ни е наистина пълен динамичен обхват, който да покрие целия обхват от 0 до 140dB? Категорично не! Затова при аудиозаписите е прието "динамичния обхват" на звука да е до 96dB - всичко по-силно би започнало да уврежда слуха на слушателите. Казано по друг начин - няма смисъл звука, който ще ви увреди слуха, да е качествен :)

Има и втори, не по-малко важен фактор - а какъв е обхвата на вашите тонколони? Едва ли вкъщи имате такива, чийто говорители няма буквално да се пръснат при звук над 90dB! Например колона като Dali Epicon 8 (цена в България над 25 000 лева) по спецификации има чувствителност до 89dB и абсолютен максимум на звука до 112dB. За какво ни е звук с динамичен обхват далеч над възможностите на техниката (дори най-аудиофилската такава)?

А има и още нещо - с добавяне на т.нар. "dithering" (добавяме допълнителен фонов шум - noise floor) може да се притъпи/погълне шума причинен от квантизацията и така горната граница на 16 битовия звук може да достигне до 120dB (не, че има някакъв смисъл от това, но е възможно). Най-просто обяснено dithering e добавяне на шум, който ние не можем да чуем, но който "унищожава" квантизационния шум. Всъщност когато се е приемал стандарта за CD е имало спор между Филипс и Сони - от Филипс са настоявали стъпката да се базира на 14 бита, но Сони са спечелили битката с няколко практически доводи, като най-големият от тях е, че при 16 битов запис dithering дори не е нужен при тъй или иначе прекалено силни звуци, като например на големи концерти. Това естествено улеснява звукозаписните компании - една грижа по-малко за тях.

Тук искам леко да се отклоня и да дам пример с dithering в друга сфера - картинките на компютъра. Когато намалите броя цветове в дадена картинка, например много популярно за интернет изображенията е GIF където максимума е 256 цвята, веднага забелязвате и по-грубите - накъсани - преходи на местата с преливания на цветове. Ефектът може частично да бъде компенсиран чрез добавянето на шум по местата, където има такива преливания. Ето една примерна снимка на моя син Пепи, нарочно свалена до нищожните 16 цвята без dithering:

Същата с добавен dithering - поради наистина малкото цветове шумът тук е силно видим, особено по лицето на детето, но за сметка на това сянките по преливанията на цветовете са по-"нагодени". Вижте бузичките, вижте ръкавичата, шапката, якето, сянката в снега...:

Вижда се, че допълнителния шум подобри общото качество на картинката. Може да се заключи, че добавения шум е помогнал за по-добро приближение до оригинала. При увеличение на броя на цветовете естествено качеството ще се подобри още повече, а шума ще е много по-трудно забележим. Същото се получава и при аудио записите - подобен допълнителен шум (dithering) може да притъпи по-сериозните грешки, причинени от квантизационен шум, а колкото повече битове добавяме при запис на пробите (по аналогия с увеличаването на броя цветове в картинката), толкова по-трудно различим ще е шума на dithering-а. Досетихте се - при 16 бита dithering е напълно неразличим! Тоест динамичния обхват на 16 битовия звук спокойно можем да приемем, че може да бъде не достатъчните 0-96dB, а напълно предостатъчните 0-120dB.

E, какво в крайна сметка печелим от 24 битовия запис? Отговорът е, че наистина записът ще е по-точен (за разлика от sampling rate където дори теоретично няма разлика, тук вече разлика има). Но той ще е толкова по-точен, за колкото... нашето ухо няма никога да пожелае да се възползва. Динамичният обхват на 24 битовия звук наистина е пълен и покрива всичко, което ни е нужно за човешкото ухо - от 0 до 144dB (припомням нашата горна граница е 140dB). Само, че ние не желаем да слушаме нищо по-силно от 80dB! А 16-те бита покриват по абсолютно същия начин динамичен обхват до цели 96dB! С добавен dithering - цели 120db! На някой пука ли му, че се е загубила информацията, която никога няма да чуе?

И все пак 24 битовия звук има реален смисъл и място за употреба!

Наистина е така - при обработката на звука. Когато пускате различни филтри, ефекти и т.н., т.е. правите цифрова преработка на даден запис, вие ще предпочитате по-висока точност, за да минимизирате ефекта на своите собствени грешки. Ще ви направя аналогия с обработката на снимки - представете си, че трябва да отпечатате снимка в стандартен формат на хартия. Дали цифровото изображение ще е 10 или 20 мегапиксела, това няма да се отрази по никакъв начин на хартиения печат, защото самия той е с много по-ниска резолюция. Ако обаче трябва междинно да обработите снимката с Фотошоп, вие бихте предпочели да работите с 20 мегапикселовата версия, просто защото ще ви е по-лесно - повече zoom, повече място за грешки (които при смаляването ще се "замажат") и т.н. Е същото е и при звука - когато го обработвате, предпочитате да е презастрахован в 24 битов, за да можете да си правите обработката спокойно, а мащаба на грешките ви да е незначителен. Ако по време на записите използвате 24 битов звук и случайно превишите разумните децибели, имате възможност в постобработка да намалите звука и всичко да продължи да е наред (при 16 битовия звук няма да е възможно, защото всичко, което надвишава горната граница ще бъде отрязано и загубено). При дистрибуцията на музиката обаче е съвсем разумно тази прецизност да се "скопи". И точно това и правят - за пазара превръщат сигнала от 24 в 16 битов. При това той продължава да е достатъчно качествен и за най-изтънчените уши.

Всичко казано дотук обяснено нагледно във видео клип

Да благодарим отново на добрите хора от xiph.org:

Няколко магазинерски трика

Нали знаете най-тривиалния трик, с който ви продават "по-добра" уредба в магазина? Просто леко увеличават звука!

Това отново е в сферата на психологията. Първо ви пускат даден запис с определена сила и вие привиквате към него. После, при по-хубавата уредба, ви пускат същия запис, но леко усилен. Номерът е да се усили толкова малко, че хем да е достатъчно за чувствителността на ухото (да е доловимо от рецепторите ви), хем да не "дъни" и да ви направи видимо впечатление. Тоест налучква се границата между съзнанието и подсъзнанието - вие не осъзнавате, че звука е по-силен, но подсъзнателно го усещате като такъв. И защо го правят ли? Защото психологически погледнато леко по-силния звук винаги се приема за "по-добър". Подобни тестове също са правени нееднократно и в научните среди е признат факт.

Тук вече навлизам в теория на конспирацията, но не е изключено абсолютно същия трик да бъде употребен и при ресийвърите, усилвателите и звуковите карти. Тоест ако им пуснете запис 48/16 или 48/24 той да се възпроизвежда съвсем леко по-тихо спрямо 192/24 при едно и също "Volume". Защо да го правят ли? Теорията на конспирацията казва, че ще го направят, за да ви продават по-скъпите носители на звук. Тоест лъжат ви :)

Заключение

Няма абсолютно никакъв смисъл от 96kHz и 192kHz дигитални записи! Ако ще е само за слушане, няма смисъл и от 24 битовата музика. Това е само и единствено излишно разхищение на дисково пространство и нищо повече. Разбира се имате пълното право да не ми вярвате и да продължите да се самозаблуждавате, че например сте свръхчовеци имащи суперухо. В крайна сметка важното е да сме щастливи с новите си играчки, нали?

« Предишна статияСледваща статия »

17 коментара

Радо каза:

10 февруари 2015 в 10:50

Статията Ви! е ТОТАЛЕН идиотизъм!

Няма нищо общо като усещане за качество от звук на 44100 херца 16 бита спрямо 44100 херца 24 бита -разликата е тотална!

За 32 бита, 96000 херца, 192000 херца 35000 херца да не говорим!

Чуйте това- http://arenabg.com/torrents/dj-tiesto-just-be-24bit-21180/ за видите разни умници какви глупости говорят
Радо каза:

10 февруари 2015 в 10:51

Е-ако Вие сте глух, или чувствено осакатен-аз искренно съжалявам!!!
Филип Петров каза:

10 февруари 2015 в 17:21

Радо - имате право да се самозаблуждавате колкото искате. Само като възхвалявате многото херци и битове, бъдете внимателен:

1. Да не говорите за компресирани формати - напр. MP3 е lossy

2. Да не се окаже, че сравнявате различни masters

Идиотизъм е да говориш против науката.
Радо каза:

13 февруари 2015 в 16:20

Филип-от 10 години сравнявам почти ежедневно формати без загуба-разликата между 44100/16 и 96000/24 е чудовищна. А науката, че проповядва безкрайни глупости във всички области е съвсем отделен въпрос.
Филип Петров каза:

14 февруари 2015 в 13:47

В почти всички, да не кажа всички, случаи от музика по торентите просто става въпрос за различни мастери.

Не знам защо, но blind test-а унищожава на пух и прах твърденията на всички като теб. Взимат един мастер 90/24 и му правят downsample до 44.1/16. След което ги пускат в произволен ред и трябва да познаеш кое-кое е. Статистиката при всички такива тестове, вкл. не към обикновени хора, а към "аудиофили", показва ясен резултат - познаване в 50% от случаите. В математиката това му казваме "налучкване".
Радо каза:

20 февруари 2015 в 21:11

Първно-методиката на тези тестове са маймунски-защо ли? Ти си изследвай лично за себе си резултатите-ама не с тяхните смотани методи-ами като мен:

-предната вечер-да си легнеш не-по късно от 11 часа-оптимално два поредни дена

-да си станал в добро настроение, да си се изкъпал, и да си си изпил кафето–(защото изключително обостря и носа, и ушите и зрението дори)

-когато съпоставяш-остави на ухото 2-3 секунди тишина

-да не бързаш с изводите-трябва да имаш потвърждение на резултатите поне 3-4 различни дни в продължение на поне месец...

и друго-има по-кадърни записи на 44100, 16 , и по-некадърни на 192000 24
Радо каза:

20 февруари 2015 в 21:42

Друг вариант-слушайте поне 1 час 192000/24 и след това слушайте въпросният ви downsample-да видите каква радиоточка ще ви се стори-с разплут бас, смотаи високи ит.н..

и въобще си купете няколко билети за Националнато ни Опера и зала България (само ще спечелите, защото цените за такъв клас изкуство са 10-ина пъти по-евтини от европейските), внимателно слушайте-за да разберете поне малко колко е фундаментално сбъркан светът на математиците.
Радо каза:

20 февруари 2015 в 21:44

извинявам се за печатните грешки
Радо каза:

20 февруари 2015 в 21:58

Да-не съм ви писал, че при операционната система МАК за качество не можем да говорим,далеч по-малко за уиндоус-най добре заредете едно лайв СД на УбунтуСтудио, или си се задълбочавайте в http://www.ap-linux.com/ ................имате много да учите, че като постигнете изтънченост на слуха- няма да е е напразно-защото това ще ви развие неимоверно-твърде сложно е да ви го обяснявам на този етап.
Филип Петров каза:

20 февруари 2015 в 23:06

Радо,

Прощавай, но за последен път си пишем. Губиш ми времето с детинщините си.
Радо каза:

21 февруари 2015 в 1:38

Филипе-твоя воля, няма да си губя времето с глупости.
Иван каза:

24 февруари 2015 в 11:47

Интересни са ми хората, които си мислят че като вдигнат някой бит и някоя честота и едва ли не ще чуят Господ да им говори.

Едва ли не като си вземеш кабел за 500 лв и ще получиш по-добър звук от изпълнение на живо. И винаги има "съжалявам те, че не можеш да чуеш както го чувам аз". Едно време такива дето чуваха гласове ги затваряхме по лудниците, сега вече там няма място :P
Милен каза:

12 март 2015 в 20:35

Абе,господин Радо,не можах да разбера к'во общо имат операционите системи MAC,Windows и Linux спрямо статията.Също така не разбрах к'ви психотропни вещества взимаш за този обострен,невероятен,и..."изтънчен" слух който притежаваш.Според мене се нуждаеш от лекар,и ако той ти каже че си добре,най-добре му кажи той да се прегледа
Филип Петров каза:

13 март 2015 в 9:29

Радо - опитай се още 2000 пъти да използваш думата "лайнян" и "профан" в новите си коментари - няма да им се получи да минат. Времето е пред теб - може да се пробваш на воля.
gera каза:

26 юни 2020 в 0:28

Ако записът от 44 или от 48 килохерца се преобразува директно в аналогов се чува шум 11 или 12 килохерца.Искате,знаете или не разсъждавате или не вътре в сидито ви честотата от диска или компютъра се учетворяма и става примерно 192 килохерца и на такава честота е добре да си парвите проектите ако обработвате звук в аудио сити или каквото ползвате като се раздели на 4 или на 8 шумат става 48 или 24 килохерца и несе чува.То на 44 и 48 като слушаш има високочестотен шум.В студио на соленска така хора дето не разбират ми цифровизираха 2 авторски плочи и ми ги варнаха от испания записите били моно и с шум 11 килохерца взеха ми 75 лева за 2те плочи.аз сиги цифровизирах на 32 бита и 44.1 килохерца основна честота така записах на сд-то но ватре честотата е четворна .Не си мислете че от 44 ще стане добре ако преди това несе дигне 4 пъти.При мен може обработката дае и на 384 килохерца така ми дава възможност.
Филип Петров каза:

26 юни 2020 в 8:59

gera - явно не само не разбирате, но и не сте прочела статията.
Митко каза:

06 януари 2023 в 11:29

Здравейте свалям от руски сайт музика 24/192 слушам с foobar 2000 и Winam Pro техните индикатори показват че се възпроизвежда музика 24/192 но усилвателя показва на дисплея че входа е 48khz пробвах и на медиа плеъра с вграден хард усилвателя показва същата стойност 48khz усилвателя е SONY STR-DA5300 ES тонколони INFINITY Alpha 40 не говоря за чуването то е ясно а какво може да не е наред та до усилвателя да не стигат 192khz поздрави.

Дневникът на Филип Петров

* Митовете на аудиофилията – 192/24 музиката

17 коментара

Добави коментар