Crédito da imagem: Pesquisa Dirac

O som surround é história. Pode ter sido considerado de ponta há uma década, mas com a maioria das músicas e vídeos agora assistidos em celulares, a luta é pelo áudio… que se move.

Construído em torno de uma esfera de 360 ​​graus, a chamada tecnologia de áudio espacial ou imersiva está sendo projetada por empresas como Dirac Research, DTS, Dolby e THX, principalmente para fones de realidade virtual, mas quem pode ignorar os 2,5 bilhões de smartphones do mundo? A corrida está em andamento para produzir o formato definitivo para áudio 3D.

O que é áudio imersivo?

Projetado principalmente para VR, mas também para dispositivos móveis, o áudio imersivo tem três partes.

O primeiro é os canais; os home cinemas usam um sistema 5.1 para lidar com frente, esquerda, direita, traseira esquerda, traseira direita e um subwoofer, e o áudio imersivo é baseado inicialmente no mesmo framework. A única diferença é que agora ele pode imitar uma matriz 11.1 ou superior.

O Fravhofer soundlab para reprodução de canais imersivos | Crédito: Fraunhofer IIS

A segunda parte do áudio imersivo é a ambíonica.

“Os sinais ambisônicos são elementos de áudio baseados em cenas que descrevem fontes não individuais (como formatos baseados em canal ou baseados em objeto), mas sim o campo sonoro como um todo a partir de um ponto no espaço.,” diz Julien Robilliard, gerente de produto da Fraunhofer IIS, que inventou os codecs mp3 e AAC.

O som imersivo pode ser produzido usando a função de transferência relacionada à cabeça (HRTF), onde microfones estéreo binaurais são colocados nos ouvidos de um manequim e sons externos gravados para criar um perfil de 'impressão de cabeça' (no futuro, todos nós poderemos obter som personalizado para a forma da nossa cabeça e face).

No entanto, o som binaural é meramente estéreo inteligente e o melhor para fones de ouvido. Para verdadeiras gravações de áudio 'ambisônicas' de 360 ​​graus adequadas aos alto-falantes, os microfones captam áudio de quatro posições diferentes.

A terceira parte do áudio imersivo é objetos de áudio.

Um objeto de áudio é uma faixa mono acompanhada por metadados que especifica a posição exata desse som. “Com VR você quer ter os sons que o imergem na cena que pode ser reproduzida vindo de qualquer direção,” diz Robilliard.

Por que o áudio imersivo é importante?

“O som em qualquer experiência de conteúdo imersivo desempenha um papel igualmente importante - e muitas vezes negligenciado - como o visual para transportar o espectador para a ação ", diz Canaan Rubin, diretor de produção e conteúdo da produtora VR e AR Jaunt.

Utiliza microfones ambisónicos instalados no conjunto circundante para capturar autenticamente o som na ronda. "Na reprodução do nosso conteúdo 360, tecnologias de áudio como Dolby Atmos para VR, DTS Headphone: X e a nova versão do Dirac VR recentemente revelada oferecem formatos de áudio exclusivos aprimorados por HRTFs (funções de transferência relacionadas à cabeça) para fornecer uma verdadeira Experiência de som 3D ", diz Rubin.

Por que o HRTF é tão importante??

"Sem ele, o áudio baseado em fones de ouvido não pode renderizar com precisão fontes sonoras originadas da parte superior, inferior, frontal ou posterior do assunto, deixando sua experiência limitada ao plano esquerdo-direito", diz Rubin. "Isso pode ocorrer devido à proximidade dos alto-falantes dos fones de ouvido com o tímpano, o que nega os efeitos físicos e psicológicos do som auditivo em uma sala."

HRTF é fundamental na produção de áudio imersivo | Crédito: Pesquisa Dirac

No entanto, existem várias tecnologias de renderização e processamento muito importantes para levar o áudio imersivo aos dispositivos - e cada um deles tem suas próprias forças.

Dirac VR explicou

Embora a maioria de nós esteja familiarizada com a Dolby, a DTS e a THX, a empresa de som sueca Dirac Research é uma empresa comparativamente pequena, mas em rápido crescimento..

Fresco de colocar sua tecnologia dentro do alto-falante inteligente Mi AI da Xiaomi no início de 2018, Dirac usou o recente MWC para dar à TechRadar uma demonstração da segunda geração de sua tecnologia Dirac VR para fones de ouvido.

Possui som proveniente de todas as direções em uma esfera, mas sua característica principal é que ele se move conforme você move a cabeça. Isso é crucial, porque se você usa um fone de ouvido VR, você precisa que o som permaneça no mesmo lugar, o que significa que tudo em um mix muda de posição em tempo real..

Esse é o posicionamento dinâmico, que cria uma esfera de áudio de 360 ​​graus onde o som se move livremente em todas as direções. É incrivelmente impressionante.

Pode ser usado, por exemplo, para criar um palco de som onde a banda que você está ouvindo pareça estar à sua frente. Mas quando você vira a cabeça para o lado direito, o ouvido esquerdo fica mais alto. Se você inclinar a cabeça para cima, o som se moverá para baixo na mixagem. Também pode ser usado para imitar a experiência de estar em um cinema.

A segunda geração do Dirac VR oferece posicionamento dinâmico | Crédito: Pesquisa Dirac

“Ao fixar fontes sonoras no plano horizontal, ambientes virtuais, como cinemas, podem ser recriados com precisão - tanto o usuário final quanto as fontes de áudio permanecem em locais estáticos.,” diz Lars Isaksson, Gerente Geral de Pesquisa da Dirac e Diretor de Negócios da AR / VR.

Isaksson continua: “Nossa segunda geração do Dirac VR, no entanto, coloca cada usuário no centro de uma "esfera de áudio", permitindo que os usuários experimentem, por exemplo, o som do vento chicoteando ao redor da cabeça ou de um avião chegando e partindo alcatrão.”

No entanto, mais criticamente, o Dirac VR tem uma pequena CPU e memória, por isso funciona bem em pequenos dispositivos como telefones.

"Embora a tecnologia de Dirac seja menos conhecida, ela promete um desempenho de CPU altamente eficiente, considerando o processamento de HRTF e o mecanismo de reverberação que ela contém", diz Rubin..

Som para gamers

Lançado no MWC 2018, o DTS Headphone: X 2.0 virtualiza o som estéreo e o transforma em som surround.

Ele é projetado com os jogadores em mente. A nova versão inclui dicas de proximidade e suporte para áudio baseado em canal, cena e objeto.

O DTS também tem o DTS: X Ultra, que adiciona suporte a objetos de áudio e ambição, e pode ser ouvido criticamente por alto-falantes e fones de ouvido; é destinado a jogos de RV e AR.

"O que é único no DTS Headphone: X 2.0 é a maneira como escrevemos os algoritmos, personalizamos o HRTF e usamos nossa vasta biblioteca de curvas de sintonia de mais de 400 pares de fones de ouvido,” diz Rachel Cruz, diretora de marketing de produtos para celular e VR / AR da Xperi, dona da marca DTS. “Eles dão uma vantagem competitiva porque às vezes é a dica de áudio que diz aos seus olhos onde procurar, e muitas vezes você os obtém antes de um sinal visual..”

É também um palco de som altamente personalizado. "DTS: X permite que o som de objetos individuais seja aumentado manualmente se você estiver tendo dificuldade em ouvir um determinado objeto, como o diálogo, em relação ao restante do palco de som", diz Rubin..

Dolby Atmos para VR, MPEG-H e Cingo

Embora tenha muita impressão, a Dolby Atmos é tecnicamente difícil de definir porque a Dolby não torna as tecnologias dentro dela públicas.

Embora esteja mais posicionado em relação ao som surround tradicional e ao som do cinema, o Dolby Atmos for VR também oferece som espacial. "Atmos oferece auralização e espacialização de até 128 objetos simultaneamente", explica Rubin.

Plantronics faz fones de ouvido compatíveis com Dolby Atmos | Crédito: Plantronics

O Fraunhofer IIS da Alemanha, conhecido pelo mp3, agora tem um contêiner para lidar com áudio imersivo; Áudio MPEG-H. Embora o 'H' não represente nada em particular, pense nisso como significando altura.

“Este codec suporta a entrega de canais, objetos de áudio e ambonyics para TVs, soundbars, bem como dispositivos móveis e VR,” diz Julien Robilliard, gerente de produtos da Fraunhofer IIS.

O MPEG-H tem sido usado na Coréia do Sul como parte das transmissões terrestres de 4K desde maio de 2017, e TVs Samsung à venda podem decodificá-lo. A THX e a Qualcomm acabaram de demonstrar sua plataforma de áudio espacial THX usando MPEG-H.

Cingo, uma tecnologia de pós-processamento, oferece uma reprodução autêntica e realista da cena de som 3D em fones de ouvido | Crédito: Fraunhofer IIS

Então, o que acontece quando um fluxo de bits MPEG-H chega em um par de fones de ouvido? “É aí que o Cingo entra,” diz Robilliard. “É um renderizador binaural que faz o cérebro pensar que os sons estão saindo de fora dos fones de ouvido.“

No entanto, enquanto o Cingo suporta renderização de conteúdo de áudio 3D totalmente imersivo com formatos que adicionam uma dimensão de altura, é o MPEG-H que tem o maior futuro. “MPEG-H é o nosso core business, e é o codec que permite que todas essas tecnologias - Dirac, Atmos, Cingo e DTS - existam,” diz Robilliard.

O MPEG-H é atualmente o único codec especificado pelas diretrizes do VR Industry Forum, mas não é apenas para VR; pode levar um som mono, estéreo, binaural, 5.1, 11.1 até um sinal de áudio imersivo dinâmico para qualquer dispositivo compatível.

Embora eles provavelmente não entrem no mainstream até que os headsets de VR comecem a vender em números maiores, os formatos de áudio imersivos são apenas metade da história, com o MPEG-H destinado a desempenhar um papel crítico. Diz Robilliard: “Se você não recebe os sinais em sua casa, não faz sentido fazer mágica.”

Este artigo foi atualizado depois de alguns esclarecimentos do Fraunhofer IIS.

  • VR de próxima geração: são as nossas mãos na revisão HTC Vive Pro