Caracterização de parâmetros do som

O som é uma onda mecânica que representa uma oscilação de pressão transmitida por um um meio físico (sólido, líquido ou gasoso), composto por uma ou mais frequências. Estas frequências podem ou não ser audíveis. De entre os principais parâmetros caracterizadores do som, destacam-se a intensidade sonora (percepção da sua aplitude), a frequência fundamental (F0) (correspondente ao primeiro harmónico) ou os formantes (picos seguintes no espectro sonoro).

Para além destes parâmetros, outros como a tonalidade, o timbre e a intensidade subjetiva poderão ser alvo de análise. A tonalidade define-se como a frequência de vibração do som, ajudando à distinção entre graves e agudos. O b> ajuda à distinção entre sons com caracteríticas semelhantes em termos de frequência, enquanto que a intensidade subjetiva (ou loudness) relaciona alguns destes parâmetros com a perceção qualitativa do ouvido humano. Como este critério varia de pessoa para pessoa, não é possível a atribuição de uma métrica fixa.

Para efectuar a análise destes sons, é necessário convertê-los para o domínio das frequências e recorrer a uma análise de Fourier. Os sinais terão os seus espetros ou, em alternativa, em espetrogramas (representação temporal dos espetros).

Exemplo de um Espetrograma

Perceção auditiva

Compreender o modo como são percecionados os sons implica algum conhecimento da anatomia do ouvido. De um modo simplificado, este é composto pelo ouvido externo, onde as ondas sonoras são reflecticas e atenuadas, fornecendo a informação necessária ao cérebro sobre a fonte do som. No canal auditivo, os sons entre 3 e 12 kHz são amplificados. Depois de atingida a membrana tímpânica, o som atinge o ouvido médio. Aqui, atravessa um conjunto de ossículos (martelo, bigorna e estribo) que aumentam a pressão das vibrações para preparar a etapa seguinte.

O ouvido interno é fundamentalmente constituído pela cóclea, que contém os terminais nervosos responsáveis pela audição. Trata-se de um tubo ósseo espiral composto por três compartimentos membranares e um compartimento central que contém as células que ajudam a conferir a sensação de audição através dos movimentos dos fluídos no seu interior.

Anatomia do ouvido humano

Produção de Fala

Define-se produção de fala como o processo a partir do qual palavras faladas são escolhidas e articuladas recorrendo ao aparelho vocal humano. Normalmente, a fala é criada através da pressão promovida pelos pulmões, gerando som por fonação na glote. Consoante a palavra a articular, a vibração das cordas vocais será diferente. Consideram-se três fases de processamento na fonação: conceptualização (no qual se define a intenção de criar o fonema), criação do lemma (palavra sem som associado) e articulação (que envolve todas as mudanças físicas inerentes à fala).

O modo como a fala é produzida depende do modo como o ar chega ao exterior. No caso de se tratar de um fluxo periódico de ar por vibração das cordas vocais, estamos perante fala vozeada. Em contraste, a fala não vozeada abdica deste mecanismo, tornando difícil a distinção entre alguns fonemas (por exemplo, /f/ e /v/).

No caso das vogais, o local de articulação caracteriza-se pela posição da língua, pela abertura maxilar ou pelo arredondamento da boca. No caso das consoantes, a única informação disponível é o local da constrição, normalmente supra-glótica.

Mecanismos de Fonação

O tipo de som que produzimos pode ser classificado de acordo a disposição das pregas vocais. Se estiverem imóveis, considera-se a situação de fonação não vozeada. Se a glote for comprimida, existe um ponto intermédio onde a vibração das cordas vocais é máxima – este ponto define a voz modal presente nas vogais

Existe também a voz murmurada, quando existem porções sem fonação (por exemplo, na palavra “japonês”). Outros exemplos poderiam ser considerados, como a voz laringelarizada, nasalada ou de falsete.

Modelo Fonte-Filtro

Para o estudo dos mecanismos anteriormente descritos é muito utizado o modelo fonte-filtro, em que a fonte são os impulsos/ruídos glotais e o filtro as influências das ressonâncias do trato vocal (oral e nasal). Por ser uma aproximação simplificada e precisa, é utilizada nas mais variadas aplicações, nomeadamente em compressão áudio.

Como os impulsos glotais têm um comportamento periódico, o seu espetro será um conjunto de harmónicos da frequência fundamental cuja magnitude decresce a 12 dB por oitava. A esta fonte é aplicado um filtro que, no caso mais simples, será composto unicamente por pólos cujos coeficientes são obtidos através de mecanismos de predição linear.