Tag: systemy kodowania dźwięku

  • Cyfrowe systemy audio: jak naprawdę działa PCM, delta modulacja, floating-point i inne formaty? Pełny przewodnik bez marketingu

    Cyfrowe audio to nie tylko „zapis zer i jedynek”. To skomplikowana seria decyzji projektowych: jak mierzyć sygnał, jak go opisywać, jak przechowywać i jak odtworzyć. Wraz z nadejściem ery streamingu przeciętny słuchacz słyszy słowo „PCM” lub „DSD”, ale rzadko rozumie, co kryje się pod spodem.

    Ten artykuł dogłębnie i przystępnie wyjaśnia:

    • czym różni się PCM od delta modulacji i ADPCM,
    • jak działa cyfrowe próbkowanie i kwantyzacja,
    • dlaczego jedne systemy mają 1 bit, a inne 24,
    • skąd bierze się szum kwantyzacji i dither,
    • dlaczego floating-point PCM istnieje mimo „wystarczającego” 24-bitowego zapisu,
    • jak to wszystko wpływa na jakość dźwięku.

    1. PCM – fundament całego cyfrowego audio

    Linear PCM (Pulse Code Modulation) to standardowy sposób zamiany fali akustycznej na cyfry.

    Jego kluczowe cechy:

    • próbki są pobierane w stałych odstępach czasu,
    • każda próbka ma tę samą liczbę możliwych poziomów, niezależnie od głośności,
    • liczba poziomów zależy od długości słowa, np. 16 bitów → 65 536 poziomów, 24 bity → ok. 16,7 mln.

    To prosty i genialny system: jeśli sygnał nie przekracza połowy częstotliwości próbkowania (zasada Nyquista) i mieści się w zakresie amplitudy – może być odtworzony bez błędów.

    Dlaczego PCM stał się standardem?

    ✔ jest liniowy i przewidywalny
    ✔ łatwo się go filtruje i rekonstruuje
    ✔ można go bezstratnie kopiować
    ✔ nie pogarsza się przy wielokrotnym przenoszeniu


    2. Problem: dźwięk nie jest równomierny

    W idealnym świecie amplituda dźwięku byłaby rozłożona równomiernie. Ale w rzeczywistości:

    • większość czasu sygnał jest cichy, a tylko chwilowo głośny,
    • muzyka ma ogromny zakres dynamiki,
    • ludzki słuch jest dużo bardziej czuły na szumy przy niskich poziomach.

    Dlatego powstały systemy niejednolitej kwantyzacji, czyli takie, w których:

    duże sygnały zapisuje się z mniejszą dokładnością, a małe z większą.


    3. Floating-point PCM – cyfrowy odpowiednik „automatycznej regulacji poziomu”

    W przeciwieństwie do zwykłego PCM, floating-point PCM zachowuje:

    • wartość sygnału (mantysa)
    • informację o skali (eksponent)

    Dzięki temu może:

    • opisać dźwięki bardzo ciche i bardzo głośne jednocześnie,
    • uniknąć przesterowania podczas nagrywania,
    • lepiej nadaje się do obróbki dźwięku niż do końcowego masteringu.

    Dlatego:

    Plik w 32-bit float nie brzmi lepiej od 24-bit PCM – ale jest bezpieczniejszy w produkcji.

    Floating-point nie zwiększa realnej rozdzielczości, tylko przesuwa zakres pracy.


    4. Delta modulacja – „jednobitowa” alternatywa dla PCM

    Delta modulacja (DM) jest ekstremalnie prosta:

    • zamiast zapisywać wartość próbki,
    • system zapisuje tylko czy sygnał wzrósł, czy spadł.

    Dlatego:

    • potrzebuje tylko 1 bit na próbkę,
    • ale wymaga bardzo wysokiej częstotliwości próbkowania, aby śledzić sygnał.

    To techniczna prehistoria DAC-ów sigma-delta. DM:

    ✓ ma proste układy
    ✗ dramatycznie traci jakość przy złożonym sygnale
    ✗ potrzebuje absurdalnie wysokich częstotliwości (setki MHz dla 16-bitowej jakości!)


    5. Adaptive Delta Modulation (ADM) – poprawiamy krok kwantyzacji

    W ADM wielkość kroku nie jest stała:

    • rośnie, gdy sygnał zmienia się gwałtownie,
    • maleje przy stabilnych fragmentach.

    Zaleta → lepsza precyzja przy małej liczbie bitów.
    Wada → szum nie jest równomierny, trudniej stosować dither.

    Rozwinięciem ADM jest CVSDM (Continuously Variable Slope DM), używane m.in. w systemach wojskowych i telekomunikacji.


    6. Companding – kompresja i ekspansja w świecie cyfry

    To technika logarytmicznej kwantyzacji, znana jako:

    • μ-law (Ameryka Północna),
    • A-law (Europa).

    W skrócie:

    1. sygnał przed kwantyzacją jest kompresowany (małe poziomy wzmacniane, duże osłabiane),
    2. po odtworzeniu – rozszerzany do oryginalnego kształtu.

    Zyskujemy:

    ✔ mniejszy szum na cichych fragmentach
    ✗ zniekształcenia intermodulacyjne przy dużych sygnałach

    Dlatego telekomunikacja mogła używać 8-bitowego audio, które brzmiało „prawie jak 12-bit”.


    7. DPCM i ADPCM – zapisujemy nie próbki, lecz różnice

    DPCM zapisuje różnicę między kolejnymi próbkami.
    To opłaca się, bo kolejna próbka zwykle nie różni się dużo od poprzedniej.

    Jeszcze lepszy jest ADPCM (Adaptive DPCM):

    • przewiduje kolejną próbkę,
    • zapisuje tylko błąd predykcji,
    • zmienia krok kwantyzacji adaptacyjnie.

    Zalety:

    ✔ mniejszy bitrate przy podobnej jakości do PCM
    ✔ mniejsze błędy widoczne w transmisji
    ✔ doskonały do telefonii, gier, kompresji bez DSP

    ADPCM do dziś siedzi w:

    • VoIP,
    • radiotelefonach,
    • starych grach (PS1, Sega, arcade audio),
    • systemach wojskowych.

    8. Sigma-delta i DSD – współczesny spadkobierca delta modulacji

    Sigma-delta to zaawansowana forma delta modulacji z noise shapingiem.

    Zasada:

    • sygnał jest próbkowany w ekstremalnie wysokiej częstotliwości,
    • ale przy małej liczbie bitów (często 1),
    • szum kwantyzacji jest przenoszony poza pasmo słyszalne.

    Tak działają:

    • prawie wszystkie współczesne ADC i DAC,
    • format DSD / SACD (2,8224 MHz / 1 bit),
    • przetworniki ESS, AKM, TI, Cirrus Logic.

    To nie jest PCM, choć często jest konwertowane do PCM w torze cyfrowym.


    9. Co naprawdę decyduje o jakości? (Nie to, o czym piszą ulotki)

    ❌ liczba bitów na folderze
    ❌ częstotliwość próbkowania „384 kHz”
    ❌ marketingowe hasła „dual mono”, „audio grade”

    liniowość przetwornika (DNL, INL)
    rzeczywista liczba bitów efektywnych (ENoB)
    poziom jittera
    jakość filtrów (FIR / IIR / analog LFP)
    algorytm oversamplingu i noise shapingu

    Najlepszy przykład:

    Wiele 24-bitowych DAC-ów ma w rzeczywistości 18–19 bitów efektywnych.
    Stare TDA1541 (16 bitów) miały 15 realnych bitów, ale perfekcyjną liniowość i do dziś brzmią genialnie.


    10. Podsumowanie

    SystemZaletyWadyZastosowania
    Linear PCMnajwyższa wiernośćduży bitratestudio, audio hi-fi
    Floating-point PCMogromna dynamikanie do końca „bit perfect”produkcja, DAW
    Delta modulacjaprosty układfatalna jakośćhistoria
    ADM / CVSDMlepszy niż DMszum zależny od sygnałutelekomunikacja
    Companding (μ-law)lepsza jakość z 8 bitówzniekształceniatelefonia
    ADPCMwysoka efektywnośćmniejsza wiernośćVoIP, gry
    Sigma-deltawysoka jakość, mało bitówwymaga zarządzania szumemwszystkie współczesne DAC-y
    DSDbrak filtracji w cyfrowej domeniegigantyczny szum powyżej 20 kHzSACD, audio high-end

    wyjaśnienie:

    W końcówce artykułu mowa o tym, co naprawdę wpływa na jakość cyfrowego audio, a nie na marketingowe hasła. Jeden z kluczowych punktów to „rzeczywista liczba bitów efektywnych (ENoB)”, czyli Effective Number of Bits. To pojęcie jest ważne, bo pokazuje różnicę między tym, co obiecuje specyfikacja (np. „24 bity”), a tym, co przetwornik (DAC lub ADC) naprawdę dostarcza w praktyce. Wyjaśnię to krok po kroku, bez ściemy.

    1. Co to jest ENoB?

    • Nominalna liczba bitów to po prostu długość słowa cyfrowego w formacie, np. 16 bitów w CD-Audio (65 536 możliwych poziomów) czy 24 bity w hi-res audio (ponad 16 milionów poziomów). To teoretyczna rozdzielczość – ile „schodków” możesz mieć do opisu amplitudy sygnału.
    • ENoB to miara efektywnej rozdzielczości, czyli ile z tych bitów jest naprawdę użytecznych po uwzględnieniu błędów i szumów w rzeczywistym urządzeniu. Oblicza się ją na podstawie stosunku sygnału do szumu i zniekształceń (SINAD – Signal-to-Noise and Distortion Ratio).
    • Formuła uproszczona: ENoB = (SINAD – 1,76) / 6,02, gdzie SINAD jest w dB. To pokazuje, ile bitów działa „jakby idealnie”, bez zakłóceń.

    Inaczej mówiąc: nawet jeśli DAC jest reklamowany jako 24-bitowy, w rzeczywistości może zachowywać się jak 18- lub 19-bitowy z powodu niedoskonałości sprzętowych.

    2. Dlaczego ENoB jest niższe niż nominalna liczba bitów?

    • Szum kwantyzacji: Podstawowy błąd zaokrąglania podczas kwantyzacji – zawsze istnieje, ale w idealnym świecie wynosi ok. -6 dB na bit (dla 24 bitów to teoretycznie -144 dB szumu).
    • Inne zakłócenia:
      • Szum termiczny: Od oporników i tranzystorów w układzie – nieunikniony w analogowej części.
      • Jitter: Niestabilność zegara, która „rozmywa” próbki w czasie.
      • Nieliniowość (DNL/INL): Błędy w równomierności schodków kwantyzacji – np. niektóre poziomy są za duże, inne za małe.
      • Zniekształcenia harmoniczne (THD): Dodatkowe częstotliwości powstające przy przetwarzaniu.
      • Interferencje zewnętrzne: Zasilanie, EMI (zakłócenia elektromagnetyczne).
    • W rezultacie, pełny zakres dynamiczny (różnica między najcichszym a najgłośniejszym sygnałem) jest ograniczony. Dla ludzkiego słuchu 20 bitów to już maksimum (ok. 120 dB dynamiki), bo szum tła w pokoju to 30-40 dB, a koncert rockowy to 110 dB. Więcej bitów nominalnych nie pomaga, jeśli ENoB nie rośnie.

    3. Przykład z artykułu: 24-bitowe DAC-i z 18-19 bitami efektywnymi

    • Wiele nowoczesnych przetworników (np. ESS Sabre, AKM, Cirrus Logic) jest 24- lub 32-bitowych, ale ich ENoB to typowo 18-20 bitów. Dlaczego?
      • Szum termiczny ogranicza do ok. -110/-120 dB SINAD, co odpowiada 18-20 bitom.
      • Oversampling i noise shaping (jak w sigma-delta) przesuwają szum poza pasmo słyszalne, ale nie eliminują go całkowicie.
      • W praktyce: Jeśli masz DAC z ENoB 19 bitów, to jego rzeczywista rozdzielczość to ok. 524 288 poziomów (zamiast 16 milionów dla 24 bitów). Dla ucha to i tak więcej niż potrzeba, ale pokazuje, że „24 bity” to często marketing.
    • To nie oznacza, że taki DAC brzmi źle – po prostu nie wykorzystuje pełnego potencjału formatu. Lepsze DAC-i (np. high-endowe jak Chord czy dCS) zbliżają się do 21-22 bitów ENoB dzięki zaawansowanym filtrom i izolacji.

    4. Przykład ze starym TDA1541: 16 bitów nominalnie, 15 efektywnie, ale genialna liniowość

    • Philips TDA1541 (z lat 80., używany w starych CD-playerach jak Philips CD304 czy high-endowych modach) to klasyczny 16-bitowy DAC.
    • Jego ENoB to ok. 15 bitów – tracił 1 bit na szumy i błędy.
    • Ale dlaczego „brzmi genialnie do dziś”?
      • Perfekcyjna liniowość: Małe błędy DNL/INL, czyli schodki były równomierne. To ważniejsze niż sama liczba bitów, bo nieliniowość powoduje ostre zniekształcenia (jak „cyfrowy chłód” w tanich DAC-ach).
      • Brak oversamplingu: Pracował w „pure” multibitowym trybie (R-2R ladder), co dawało naturalny, analogowy charakter dźwięku.
      • Entuzjaści audio modują go do dziś, bo subiektywnie brzmi cieplej i bardziej muzykalnie niż niektóre 24-bitowe sigma-delta DAC-i z wyższym ENoB, ale gorszą liniowością.
    • Lekcja: ENoB to nie wszystko. Jakość zależy od całego łańcucha – filtrów, jittera, a nawet subiektywnego odbioru.

    5. Jak to wpływa na Ciebie jako słuchacza?

    • Nie gon za „32-bit/768 kHz” w specyfikacjach – sprawdzaj recenzje z pomiarami (np. na Audio Science Review, gdzie mierzą ENoB i SINAD).
    • W streamingu (Spotify, Tidal) większość to 16- lub 24-bit PCM, ale realna jakość zależy od masteringu, a nie bitów.
    • Jeśli produkujesz muzykę: Używaj floating-point (np. 32-bit float) w DAW, bo chroni przed clippingiem, ale finalny export to 24-bit fixed-point.
    • Podsumowując: ENoB pokazuje, że cyfrowe audio to nie magia bitów, ale inżynieria. Wiele „hi-res” to placebo, jeśli sprzęt nie nadąża.