Обнаружение ломбардной речи дикторов разного пола при пространственном разделении источников целевого сигнала и шума

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

Изучали пространственную избирательность слуха к речевым сигналам при разделении целевого сигнала и помехи по расстоянию между их источниками и слушателем. В работе проверяли гипотезу о том, что смещение спектра голоса диктора в сторону высоких частот, которое возникает при говорении в шуме, может улучшить избирательность слуха за счет более активного включения высокочастотного механизма пространственного слуха. Пороги обнаружения целевого сигнала – двухсложного слова, произнесенного мужским или женским голосом, оценивали в задаче двухальтернативного двухинтервального вынужденного выбора в 4 сериях, которые различались типом целевого сигнала (обычная или ломбардная речь) и расположением источников целевого и маскирующего (шум многоголосия) сигналов. Источники сигналов находились на расстоянии 1 и 4 м напротив испытуемого на уровне его головы. Порог обнаружения определяли через пороговое отношение уровней сигнала и шума в месте расположения слушателя (С/Ш). Результаты показали, что порог обнаружения целевого сигнала (мужской и женский голоса диктора совместно) был одинаков для обычной и ломбардной речи и составил -11 дБ С/Ш. Он не зависел от того, какой из источников – целевого сигнала или помехи, находился ближе к слушателю. При обычной речи пороги обнаружения по средним данным различались для мужского и женского голоса, но различие было недостоверным. При ломбардной речи эти пороги достоверно различались: для мужского голоса порог на уровне обнаружения 0.67 был равен -10 дБ, а для женского – -12.5 дБ.

Полный текст

Доступ закрыт

Об авторах

И. Г. Андреева

Институт эволюционной физиологии и биохимии им. И.М. Сеченова Российской академии наук

Автор, ответственный за переписку.
Email: ig-andreeva@mail.ru
Россия, Санкт-Петербург

А. М. Луничкин

Институт эволюционной физиологии и биохимии им. И.М. Сеченова Российской академии наук

Email: ig-andreeva@mail.ru
Россия, Санкт-Петербург

Е. А. Огородникова

Институт эволюционной физиологии и биохимии им. И.М. Сеченова Российской академии наук; Институт физиологии им. И.П. Павлова Российской академии наук

Email: ig-andreeva@mail.ru
Россия, Санкт-Петербург; Санкт-Петербург

Список литературы

  1. Bronkhorst AW (2015) The cocktail-party problem revisited: early processing and selection of multi-talker speech. Atten Percept Psychophys 77(5): 1465–1487. https://doi.org/10.3758/s13414-015-0882-9
  2. Andreeva IG (2018) Spatial selectivity of hearing in speech recognition in speech-shaped noise environment. Hum Physiol 44: 226–236. https://doi.org/10.1134/S0362119718020020
  3. Andreeva IG, Ogorodnikova EA (2022). Auditory Adaptation to Speech Signal Characteristics. J Evol Biochem Physiol 58(5): 1293–1309. https://doi.org/10.1134/S0022093022050027
  4. Marrone N, Mason CR, Kidd G (2008) Tuning in the spatial dimension: Evidence from a masked speech identification task. J Acoust Soc Am 124(2): 1146–1158. https://doi.org/10.1121/1.2945710
  5. Haustein BG (1969) Hypothesen uber die einhorige Entferungswahrnehmung des menschlichen Gehors. Hochfrequensthechnick und Electroakustic 78(2): 45–57.
  6. Mershon DH, Bowers JN (1979) Absolute and relative cues for the auditory perception of egocentric distance. Perception 8(3): 311–322. https://doi.org/10.1068/p080
  7. Kolarik AJ, Moore BC, Zahorik P, Cirstea S, Pardhan S (2016) Auditory distance perception in humans: a review of cues, development, neuronal bases, and effects of sensory loss. Atten Percept Psychophys 78: 373–395. https://doi.org/10.3758/s13414-015-1015-1
  8. Андреева ИГ, Бахтина АВ, Гвоздева АП (2014) Разрешающая способность слуха человека по расстоянию при приближении и удалении источников звука разного спектрального состава. Сенс сист 28(4): 3–12. [Andreeva IG, Bahtina AV, Gvozdeva AP (2014) Human’s hearing resolution in case of localizing of approaching and withdrawing sound images with various spectral structures. Sensory Systems 28(4): 3–12. (In Russ)]. https://www.elibrary.ru/item.asp?id=22741084
  9. Andreeva IG, Dymnikowa M, Gvozdeva AP, Ogorodnikova EA, Pak SP (2019). Spatial separation benefit for speech detection in multi-talker babble-noise with different egocentric distances. Acta Acust United Acust 105(3): 484–491. https://doi.org/10.3813/AAA.919330
  10. Огородникова ЕА, Лабутина ОВ, Андреева ИГ, Гвоздева АП, Баулин ЮА (2020) Фактор просодики в восприятии коммуникативной сцены с пространственным разделением источников речи и речеподобной помехи. Лингвистический форум 2020: Язык и искусственный интеллект. Москва, 12–14 ноября: 127–128. [Ogorodnikova EA, Labutina OV, Andreeva IG, Gvozdeva AP, Baulin YA (2020) Faktor prosodiki v vospriyatii kommunikativnoj sceny s prostranstvennym razdeleniem istochnikov rechi i rechepodobnoj pomekhi [The prosody factor in the perception of a communicative scene with spatially separate sources of speech and speech-like interference. Linguistic Forum 2020: Language and artificial intelligence. Moscow, November 12-14: 127–128. (In Russ)].
  11. Kleczkowski P, Żak A, Król-Nowak A (2017) Lombard effect in Polish speech and its comparison in English speech. Arch Acoust 42(4): 561–569. https://doi.org/10.1515/aoa-2017-0060.
  12. Brungart DS, Simpson BD, Ericson MA, Scott KR (2001) Informational and energetic masking effects in the perception of multiple simultaneous talkers. J Acoust Soc Am 110(5 Pt 1): 2527–2538. https://doi.org/10.1121/1.1408946.
  13. Van Ngo T, Kubo R, Morikawa D, Akagi M (2017) Acoustical analyses of tendencies of intelligibility in lombard speech with different background noise levels. J Signal Process Syst 21(4): 171–174. https://doi.org/10.2299/jsp.21.171
  14. Tang P, Xu Rattanasone N, Yuen I, Demuth K (2017) Phonetic enhancement of Mandarin vowels and tones: Infant-directed speech and Lombard speech. J Acoust Soc Am 142(2): 493–503. https://doi.org/10.1121/1.4995998
  15. Lu Y, Cooke M (2008) Speech production modifications produced by competing talkers, babble, and stationary noise. J Acoust Soc Am 124(5): 3261–3275. https://doi.org/10.1121/1.2990705
  16. Lu Y, Cooke M (2009) Speech production modifications produced in the presence of low-pass and high-pass filtered noise. J Acoust Soc Am 126(3): 1495–1499. https://doi.org/10.1121/1.3179668
  17. Garnier M, Henrich N (2014) Speaking in noise: How does the Lombard effect improve acoustic contrasts between speech and ambient noise? Comput Speech Lang 28(2): 580–597. https://doi.org/10.1016/j.csl.2013.07.005
  18. Keith RW (2000) Random Gap Detection Test. St Louis: Auditec St Louis 2000.
  19. Gvozdeva AP, Lunichkin AM, Zaytseva LG, Ogorodnikova EA, Andreeva IG (2022) Joint Changes in First and Second Formants of /a/, /i/, /u/ Vowels in Babble Noise-a New Statistical Approach. In International Conference on Speech and Computer. Cham: Springer Int Publ. 252–264. https://doi.org/10.1007/978-3-031-20980-2_22
  20. Strouse A, Ashmead DH, Ohde RN, Grantham DW (1998) Temporal processing in the aging auditory system. J Acoust Soc Am 104(4): 2385–2399. https://doi.org/10.1121/1.423748
  21. Puts DA, Gaulin SJC, Verdolini K (2006) Dominance and the evolution of sexual dimorphism in human voice pitch. Evol Hum Behav 27(4): 283–296. https://doi.org/10.1016/j.evolhumbehav.2005.11.003
  22. Stowe LM, Golob EJ (2013) Evidence that the Lombard effect is frequency-specific in humans. J Acoust Soc Am 134(1): 640–647. https://doi.org/ 10.1121/1.4807645
  23. Bottalico P, Passione II, Graetzer S, Hunter EJ (2017) Evaluation of the starting point of the Lombard effect. Acta Acust United Acust 103(1): 169–172. https://doi.org/10.3813/AAA.919043
  24. Pohjalainen J, Raitio T, Yrttiaho S, Alku P (2013) Detection of shouted speech in noise: Human and machine. J Acoust Soc Am 133(4): 2377–2389. https://doi.org/10.1121/1.4794394
  25. Berg M, Fuchs M, Wirkner K, Loeffler M, Engel C, Berger T (2017) The Speaking Voice in the General Population: Normative Data and Associations to Sociodemographic and Lifestyle Factors. J Voice 31(2): 257.e13–257.e24. https://doi.org/10.1016/j.jvoice.2016.06.001
  26. Шиленкова ВВ, Бестолкова ОС (2013) Пресбифония. Возрастные изменения акустических параметров голоса. Вестн оториноларингол 78(6): 24–27. [Shilenkova VV, Bestolkova OS (2013) Age-related changes in the acoustic voice characteristics. Vestn Otorinolaringol 8(6): 24–27. (In Russ)]. https://www.elibrary.ru/item.asp?id=21074035

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Спектральные характеристики шума многоголосия. (a) – спектрограмма, (b) – амплитудно-частотный спектр.

Скачать (167KB)
3. Рис. 2. Обнаружение обычного и ломбардного речевого сигнала при разных положениях источника целевого сигнала и шума многоголосия. По абсциссе – соотношение сигнал/шум (дБ); по ординате – вероятность обнаружения речевого стимула на фоне шума многоголосия; TH – порог обнаружения стимула; IS – стимул с обычной речью; LS – стимул с ломбардной речью; 1 m – источник целевого сигнала расположен на расстоянии 1 м от слушателя; 4 m – источник целевого сигнала расположен на расстоянии 4 м от слушателя. Вертикальные линии – доверительный интервал (n = 320).

Скачать (96KB)
4. Рис. 3. Обнаружение мужского и женского голоса при обычной и ломбардной речи (источник удален на 1 м от слушателя) на фоне шума многоголосия (источник удален на 4 м от слушателя). По абсциссе – соотношение сигнал/шум (дБ); по ординате – вероятность обнаружения речевого стимула на фоне шума многоголосия; TH – порог обнаружения стимула; ISF – стимул с женской обычной речью; ISM – стимул с мужской обычной речью; LSF – стимул с женской ломбардной речью; LSM – стимул с мужской ломбардной речью. Маркерами показаны достоверные различия вероятности обнаружения женской и мужской ломбардной речи; * – p < 0.05, ** – p < 0.01 (биномиальный тест, n = 288). Вертикальные линии – доверительный интервал (n = 288).

Скачать (105KB)

© Российская академия наук, 2024