音による空間知覚について(メモ)


良く忘れちゃうんで、2年程前空間知覚について調べた結果を抜き出しておきます。
(2010/12/29に書いたときとほぼ同じです)


音像とか?音の広がりとはなんぞや?

という、調べごとについて、
あまりにもいろんな仮説がありまして、相互に整合性があったりなかったり、
カオスな状態であることは分かりましたので、メモ書きしていきます。

結局、生理学とか神経学とか心理学の領域であって、進化の適応のデタラメさや、後天的な学習効果がありましょうから、一筋縄ではいかない様子。



【音による空間知覚について、あれこれメモ】

左右方向の知覚
 1)両耳間時間差(ITD)/位相差(IPD)
   ・先行音効果(第一波面の法則、Haas効果)
   ・
1.5kHz以下の周波数帯域を手がかりにしている。
    1.5kHzを超えると、両耳感の位相差が2πを超えるため、方向に多義性が増してしまい、方向推定が一意に決められなくなる。
 2)両耳間レベル差(ILD)
   ・±10dB程度の音圧差で、側方に知覚させることができる。
   ・人間の聴覚は、側方に対しては方向検知の精度が低く、定位の決定があいまい。(コーン状の混同(cone of confusion)と呼ばれる原理的な問題が存在する)

前後・上下方向の知覚
 1)HRTFの振幅スペクトルが重要な手掛かりになっている。(spectral cue)
   ・spectral cueは、5kHz~10kHzの周波数帯域に多く存在する。
   ・よって前後・上下方向の知覚には5kHz~10kHzの成分が必要。
   ・具体的には、主に耳介によって生じるスペクトルのピーク/ノッチ(山谷)を手がかりにしている。(こちらのP7上部のグラフ参照)
   ・例えば、音源が上下に移動すると、ノッチの周波数上の位置も上下する
   ・特にノッチは複数存在しており、これにより多義性を避けることで、上下方向特定の精度を高めている。
 2)スペクトルのピーク/ノッチが発生する主な要因
   ・とりわけ耳介のconchaが重要。(こちらのP8参照)
   ・conchaをモールドして埋めてしまった実験では、HRTFのスペクトル上の4kHzのピークと、8kHzのノッチが消滅する。(spectral cueが減少)(こちらのFig.1 a) b)を参照)
 3)spectral cueの学習
   ・spectral cueは後天的に学習している。
   ・耳介をモールドで埋めると、被験者は一時的に音像定位が困難になるが、3~6週間で定位の精度を取り戻す。(学習する)
   ・驚くべきことに、被験者が耳介のモールドを取り去り、元の耳介に戻っても音像定位には異常が現れない。spectral cueは一旦学習すると「プリセットパターン」のように記憶される様子。
    (スピーカーやヘッドホンの音に慣れる、というのも同様な過程ではないだろうか・・)

距離の知覚
 1)被験者になじみがある音(例えば、通常の話し声)の場合
   ・1.5mまでは距離に依存したHRTFの変化によって、比較的正確に音源距離を推定することが出来る。
   ・1.5m以上ではHRTFは殆ど変化しなくなってしまうため、音色の変化を手がかりにしている。
   ・音色変化の成因(1):音源が遠くなり音圧レベルが低下すると、等ラウドネス曲線に応じた知覚されるスペクトルの変化が発生し、音色が変わる。(低域と高域が減少して聞こえるのでカマボコ風の特性に聴こえる?)
   ・音色変化の成因(2):音源が遠くなるに伴い、空気の音響吸収(吸収率は周波数の2乗に比例)により、高域の音圧が低下する(空気の熱伝導や粘性、酸素分子の運動エネルギーへの置換が原因)。JIS Z8738等によれば、音が空気中を10m進むと10kHzで1.2dB、20kHzで6dB程度音圧が下がる。(@1気圧、20℃、湿度60%)
   ・なじみがある音でも、あり得ないような条件下では(例えば「ささやき声」の音源を、10m距離からスピーカーで再生する)正しく距離を見積もれない。
 2)被験者になじみのない音の場合
   ・HRTFによる推定が可能な1.5m程度までが、距離を正しく見積もれる限度。


【ヘッドホン・イヤホンによる頭内定位が発生する理由と、拡散音場校正(Diffuse-Field Equalization)によるその軽減】
 まず、自由音場、拡散音場とは何か?を極簡単に記すと・・・
 自由音場: 音源から直接音しか到達しない、つまり反射音を無視出来る音場。
無響室が具体例。
 拡散音場: 自由音場とは逆に、音源から直接到達する音の影響が無視できる音場。
残響室が具体例。

 Theile,1986(※)によれば、自由音場校正を用いると(その定義から)特定方向の頭部伝達関数が含まれる。
 しかしこのキュー(手がかり)とステレオ録音中に存在する方向に関するキューとの間で矛盾が起こり、聴覚が混乱する為に頭内定位が発生する。
 一方、拡散音場校正の場合は、特定の方向からのキューが存在しないため、頭内定位が発生しにくい、・・・とされている。

 つまり、「ヘッドホンの周波数応答を拡散音場で得られた応答に近づけると頭内定位が軽減される」・・・という主張です。

 実際1990前後から各社のフラッグシップヘッドホンは、Diffuse-Fieldイコライジングに準じた製品を多く出している。
 (例えばSennheiser HD650、beyer DT770/990、DT800 monitor、AKG K240 MonitorStudio、STAX Lambda Professiona、EtymoticResearch ER-4B)
 現在でも例えばSennheiserのフラッグシップであるHD800に付いてくる周波数応答グラフの基準は1/3オクターブバンドのDiffuse-Fieldであります。

 他に頭内定位を軽減する方法としては、開放型で、振動板を出来るだけ耳から離すことが効果的であることが知られている。
 ・・・まあ当たり前ですが。



参考文献:
 コロナ社「空間音響学」日本音響学会編
 
誠信書房 「聴覚心理学概論」/B.C.J.ムーア著
 (※)Theile, Günther, "On the Standardization of the Frequency Response of High-Quality Studio Headphones", JAES Volume 34 Issue 12 pp. 956-969; December 1986
 他

以上


TOPへ戻る