BIBLIOGRAPHIE COMMENTÉE EN INTERACTION HOMME-MACHINE et NEUROINFORMATIQUE
 

JEAN ROUAT 1, Ph.D.


 
 
Laboratoire de Recherche en Traitement de l'Audio et de Neuroinformatique
 
 
Université de Sherbrooke
Département de génie électrique
et
génie informatique,
Sherbrooke, Québec, J1K 2R1, Canada

 
\includegraphics[width=11cm]{contexteTravJRouat.eps}
Figure 1: Articulation de travaux en technologie de la parole.
On donne les principaux axes de recherche qui sont le moteur des activités de recherche et des transferts. Le programme de recherche s'inscrit dans une démarche générale et globale liée à une meilleure compréhension du système auditif en lien avec le problème du traitement de la parole en milieu difficile. Cette approche a l'avantage de créer une dynamique de recherche stimulante entre le secteur des neurosciences (plus spécifiquement lié au système auditif) et celui des sciences appliquées et informatiques (en vue de réaliser des systèmes de dialogue entre l'homme et la machine). La figure 1 résume les divers secteurs d'activités du Laboratoire de Traitement de Parole et Neuroinformatique de l'Université de Sherbrooke.

On commente la figure 1 en présentant les différents travaux liés aux divers secteurs mentionnés sur la figure.

Lien avec le traitement de la parole et la compréhension du système auditif

L'interaction entre le traitement de la parole et la compréhension du système auditif nous amène à développer des travaux de recherche fondamentale utilisables ensuite pour plusieurs applications. L'article [1] illustre de quelle façon le lien entre la connaissance acquise sur le système auditif et les traitements de parole est établi. Les travaux [2], [3], [4] proposent une analyse de parole basée sur la structure temporelle de la représentation obtenue à la sortie d'un banc de filtres cochléaires.

Compréhension du système auditif

On a analysé les réponses des cellules du cortex auditif et du thalamus d'un animal [5]. Ce travail a été réalisé en collaboration avec l'institut de Physiologie de l'Université de Lausanne. Actuellement, nous travaillons à l'élaboration d'un système de détection de potentiels d'actions pour assister le neurochirurgien en salle d'opération. Ce travail est réalisé dans le cadre d'une convention de recherche France-Québec avec le Laboratoire de Neurobiophysique et le service de Neurochirurgie à l'Hôpital Michallon, Grenoble France (Pr. A. Villa).

Simulations bio-inspirées (audition et réseaux neuromimétiques)

Un modèle de cellule du noyau cochléaire [6] a été mis au point. Ce modèle a permis de mieux comprendre le traitement du signal réalisé par le noyau cochléaire.

Un travail a pu être réalisé en collaboration avec l'institut de Physiologie de l'Université de Lausanne [7] à partir de ce modèle.

Une simulation de réseaux de neurones à décharges inspirés de la physiologie [8] a été réalisée. Il s'agit d'une étude où on propose un nouveau réseau doué d'apprentissage non supervisé. Il est capable de détecter la nouveauté dans la séquence de stimuli qui lui est présentée. Les applications de ce type de réseau en intelligence artificielle sont multiples et ne sont pas uniquement limitées au champ de la parole.

Le réseau proposé a partiellement été comparé à des réseaux formels [9].

Nous avons démarré des travaux en analyse de scène auditive et en détection de mouvement dans les vidéos en utilisant ce type de réseau de neurones [10] [11] [12] [13] [14][15].

Création de nouveaux outils en analyse/reconnaissance de parole

De nouveaux outils de filtrage non linéaire de parole noyée dans le bruit [16], [17] ont été étudiés, conjointement avec une mise en oeuvre de filtrage de parole par réseau de neurones [18].

Un nouveau type de système de reconnaissance de parole [19] basé sur le réseau de neurones bio-inspiré a été proposé.

  
Rehaussement de parole

On explore divers aspects du rehaussement de parole en vue de nettoyer le signal de parole noyé dans le bruit. Une première tentative avait été réalisée à l'aide d'un réseau de neurones formels [16].

Actuellement, nous étudions un système qui permet de nettoyer un signal de parole enregistré dans des environnements multiples (automobile, scierie, avion, rue, bruit blanc, etc.). Ce système est basé sur une analyse à bandes multiples avec combinaison de paramètres calculés par ondelettes et par analyse perceptive. Une partie des travaux a récemment été publiée dans [20],[21], [22] et [23].

Séparation des locuteurs

Il s'agit de faire ressortir un locuteur d'un flux continu de parole. L'exemple typique est celui de la conversation entre deux personnes au cours d'une assemblée où plusieurs personnes discutent et s'interpellent (effet cocktail party). Le problème n'est pas simple et ne peut être traité via les méthodes couramment utilisées en rehaussement de parole. Nous testons une approche que nous avons récemment proposée et qui utilise des réseaux de neurones à décharges afin de séparer deux locuteurs à partir d'images auditives [13] [15].

Suivi de hauteur tonale et de fréquence de glotte

Il s'agit de développer des systèmes de suivi de fréquence de glotte (ou de hauteur tonale selon le cas) qui soient robustes aux bruits et qui fonctionnent correctement en milieu hostile [24], [25], [26] et [27]. Ces systèmes sont basés sur l'analyse des signaux à la sortie d'un banc de filtres cochléaires. Une sélection automatique des canaux les moins bruités est réalisée au cours du traitement.

Identification de locuteurs

On propose et compare de nouvelles techniques d'analyse de parole avec application à la caractérisation du locuteur. Ce travail a été réalisé en commandite pour le Centre de Sécurité en Télécommunications du gouvernement fédéral du Canada.

On étudie de nouveaux paramètres en vue de l'identification du locuteur en milieu difficile [28][29][30] et [31].

Transcription automatique de musique et de parole

Des travaux sont en cours [32] en vue d'appliquer les techniques de traitement de parole à la trame sonore de films vidéos. Dans le cadre d'un projet France-Québec, deux étudiants de DEA ont traité la trame sonore de quelques films [33][34].

Encodage par réseau de neurones et téléphonie IP

Nous avons dans un premier temps réalisé des simulations et tests d'un réseau de neurones pour protéger l'information transmise [35].

Nous avons ensuite réalisé une mise en oeuvre sous forme de téléphone INTERNET avec protection de l'information [36]. Des versions UNIX et Windows de téléphonie IP ont alors été réalisées [37], [38], [39], [40]. On peut obtenir copie gratuite de ces logiciels en en faisant la demande. Nous portons le système sur environnement MacOsX et modifions le système de cryptographie [41].

Reconnaissance en automobile et en milieu difficile

Il s'agit de séparer la voix du correspondant lointain de celle du locuteur local (géné-ralement le chauffeur) dans le contexte de la téléphonie main-libre. En effet, en raison des accidents provoqués par les utilisateurs de téléphones cellulaires, certaines compagnies de télécommunications proposent des téléphones cellulaires à commande vocale. Le téléphone est alors fixé sur le tableau de bord et la voix du correspondant lointain sort par un haut-parleur. ALCATEL a proposé de bloquer le retour du signal du haut-parleur dans le microphone du chauffeur en utilisant la détection de voisement du correspondant lointain. Une commandite de recherche avec ALCATEL a permis le développement de techniques de séparation de la double parole dans le contexte de la téléphonie mobile [42], [43], [44].

Nous développons aussi des travaux en rehaussement de parole afin de nettoyer le signal - se référer à la section rehaussement (section [*])-. Des tests préliminaires sont en cours et portent sur de la parole enregistrée dans une scierie. Le problème est complexe en raison du niveau de bruit qui est extrêmement important, mais aussi en raison du caractère impulsif de ce bruit. Une planche de bois tombant sur la trieuse a un spectre similaire à celui d'un segment voisé de parole et ne peut être séparé de la parole qu'en utilisant une vérification de la fréquence fondamentale.

Nouvelles techniques de traitement et de reconnaissance de parole

On explore la possibilité de réaliser la reconnaissance de parole en se basant sur des structures temporelles d'enveloppe (et non pas uniquement sur des structures spectrales, contrairement à la majorité des systèmes contemporains). Une étude exploratoire en reconnaissance automatique de parole [45] a été réalisée. Nous étudions maintenant la conception d'un prototype de reconnaissance de parole utilisant un réseau de neurones à décharges.

Bibliographie

1
J. Rouat.

Spatio-temporal pattern recognition with neural networks: Application to speech.
In Artificial Neural Networks-ICANN'97, Lect. Notes in Comp. Sc. 1327, pages 43-48. Springer, 10 1997.
Invited session.
2
Jean Rouat.

A nonlinear speech analysis based on modulation information.
In A. Rubio and J. Soler, editors, Speech Recognition and Coding, New Advances and Trends, pages 341-344. Springer-Verlag, 1995.
3
Jean Rouat.

Nonlinear operators for speech analysis.
In M. Cooke, S. Beet, and M. Crawford, editors, Visual representations of speech signals, pages 335-340. J. Wiley and Sons, 1993.
4
Jean Rouat, Yong Chun Liu, and Sylvain Lemieux.

A nonlinear analysis for clean and noisy speech.
Canadian acoustics journal, 19(4):117-118, 1991.
5
Emilie Wastyn.

Analyse des réponses des cellules du cortex auditif et du thalamus d'un animal.
Technical report, Chicoutimi : Université du Québec à Chicoutimi, Module de génie unifié, 1998.
6
Ping Tang and Jean Rouat.

Modeling neurons in the anteroventral cochlear nucleus for amplitude modulation (AM) processing: Application to speech sound.
In Proc. Int. Conf. on Spok. Lang. Proc., page Th.P.2S2.2, Oct 1996.
7
Ping Tang, Pierre Dutoit, Alessandro Villa, and Jean Rouat.

Effect of the membrane time constant in a model of a chopper-S neuron of the anteroventral cochlear nucleus : a neuroheuristic approach.
In Assoc. for Res. in Oto., 20th. res. meeting, pages P-472, feb 1997.
http://www.aro.org/archives/1997/472.html.
8
Tuong Vinh Ho and Jean Rouat.

A novelty detector using a network of integrate and fire neurons.
In Artificial Neural Networks-ICANN'97, Lect. Notes in Comp. Sc. 1327, pages 103-108. Springer, oct 1997.
9
Tuong Vinh Ho and Jean Rouat.

Novelty detection based on relaxation time of a network of integrate-and-fire neurons.
In Proc. of the IEEE,INNS Int. Joint Conf. on Neural Networks, volume 2, pages 1524-1529, May 1998.
10
Ramin Pichevar and Jean Rouat.

Réseau de neurones à décharges : un nouvel outil pour l'analyse de processus spatio-temporels.
In Actes du 69 ème congrès de l'ACFAS, pages S-206, 2001.
http://www.acfas.ca/congres/congres69/S325.htm.
11
Ramin Pichevar, Jean Rouat, and Romain Balleraud.

Binding of audio elements in the sound source segregation problem via a two-layered bio-inspired neural network: Preliminary example.
In COST277, 3 December, Edinburgh, U.K., 2002.
12
J. Rouat and R. Pichevar.

Nonlinear speech processing with oscillatory neural networks for speaker segregation.
In proceedings of EUSIPCO 2002, September 2002.
invited paper.
13
R. Pichevar and J. Rouat.

Binding of audio elements in the sound source segregation problem via a two-layered bio-inspired neural network.
In proceedings of the CCECE 2003. IEEE, May 2003.
14
R. Pichevar and J. Rouat.

Double-vowel segregation based on a cochleotopic/amtopic map using a biological neural network.
In Auditory Perception, Cognition, and Action Meeting, Thursday November 21, 2002, The Westin Hotel Kansas City, MO, USA, 2002.
15
R. Pichevar and J. Rouat.

Double-vowel segregation through temporal correlation: A bio-inspired neural network paradigm.
In NOLISP 2003, 20-23 May 2003.
16
Moulay Abderrahim Ennaji and Jean Rouat.

Conception of speech filters based on a neural network.
In Proc. of the International Conference on Spoken Language Processing, volume 2, pages 1387-1390, 1992.
17
Moulay Abderrahim Ennaji.

Analyse et conception d'un réseau de neurones formels pour le filtrage d'un signal dynamique.
Master's thesis, Université du Québec à Chicoutimi, 1992.
18
Jean Beaulieu and Nicolas Gagnon.

Filtrage par reseau de neurones.
Technical report, Chicoutimi : Université du Québec à Chicoutimi, Module de genie unifie, 1992.
19
Jean Rouat and Tuong Vinh Ho.

La détection de nouveauté basée sur le temps de stabilisation d'un réseau de neurones: application possible en reconnaissance de parole?
In 22ièmes Journ. d'ét. sur la parole, pages 413-416, Juin 1998.
20
Mohammed Bahoura and Jean Rouat.

Wavelet noise reduction: Application to speech enhancement.
Canadian Acoustics, 28(3):158-159, Sept 2000.
21
M. Bahoura and J. Rouat.

Wavelet speech enhancement based on the Teager Energy Operator.
IEEE SPL, 8(1):10-12, Jan 2001.
22
M. Bahoura and J. Rouat.

A new approach for wavelet speech enhancement.
In proceedings of Eurospeech 2001, September 2001.
Paper nb: 1937.
23
M. Bahoura and J.Rouat.

Wavelet speech enhancement based on time-space adaptation.
IEEE Transactions on Speech and Audio Processing, 2003.
submitted.
24
Yong Chun Liu and Jean Rouat.

Un détecteur perceptif de hauteur tonale pour la parole téléphonique.
In Actes du 59ième congrès de l'Association Canadienne Française pour l'Avancement des sciences, page 106. ACFAS, Sep 1991.
25
Jean Rouat and Yong Chun Liu.

A pitch determination algorithm for very noisy telephone speech.
In Proceedings of the ESCA workshop on speech processing in adverse conditions, pages 158, 164-166. European Speech Communication Association, Nov 1992.
26
J. Rouat, Yong Chun Liu, and D. Morissette.

A pitch determination and voiced/unvoiced decision algorithm for noisy speech.
In Proc. EUROSPEECH'95, pages 397-400, Sept 1995.
27
J. Rouat, Yong Chun Liu, and D. Morissette.

A pitch determination and voiced/unvoiced decision algorithm for noisy speech.
Speech Communication, 21:191-207, 1997.
28
Hassan Ezzaidi and Jean Rouat.

Comparison of MFCC and pitch synchronous AM, FM parameters for speaker identification.
ICSLP, October 2000.
29
Hassan Ezzaidi and Jean Rouat.

Speaker identification by computer and human evaluated on the SPIDRE corpus.
Canadian Acoustics, 28(3):156-157, Sept 2000.
30
Hassan Ezzaidi, Jean Rouat, and Douglas O'Shaughnessy.

Combining pitch and MFCC for speaker identification systems.
In A speaker Odyssey, the Speaker Recognition Workshop, an ISCA Tutorial and Research Workshop (ITRW) on Speaker Recognition, June, 18-22 2001.
Paper nb: 1036.
31
Hassan Ezzaidi, Jean Rouat, and Douglas O'Shaughnessy.

Towards combining pitch and MFCC for speaker identification systems.
In proceedings of Eurospeech 2001, September 2001.
Paper nb: 2825.
32
H. Ezzaidi and J. Rouat.

Speech, music and songs discrimination in the context of handsets variability.
In proceedings of ICSLP 2002, 16-20 September 2002.
33
Elise Taillant.

Discrimination parole/musique/bruit/silence et détection du locuteur dans le contexte de trames sonores de films.
Master's thesis, INPG-UQAC, 2002.
34
Philippe Boigné.

Réhaussement de la parole vis à vis du bruit dans le contexte de trames sonores de films.
Master's thesis, INPG-UQAC, 2002.
35
Jean Rouat, Fang He, and Daniel Audet.

A neural network for speech encryption and filtering.
In World Congress on N.N., volume 4, pages 620-625. INNS Press, 1994.
36
Jean Beaulieu and Nicolas Gagnon.

Filtrage par réseau de neurones.
Technical report, Chicoutimi : Université du Québec à Chicoutimi, Module de génie unifié, 1992.
37
Marc Lamontagne.

Système pour encrypter et décrypter des signaux à bande passante limitée avec transport sur un réseau de type internet.
Technical report, Université du Québec à Chicoutimi, juillet 1995.
103 pages.
38
Jean-Sébastien Tremblay.

Etude sur l'encryptage et l'utilité de remettre à jour le logiciel CPHONE.
Technical report, Chicoutimi : Université du Québec à Chicoutimi, mai 1999.
39
Luc Gagnon and Jean-Sébastien Tremblay.

Mise en oeuvre d'un téléphone internet (VoIP) avec protection de l'information.
Technical report, Chicoutimi : Université du Québec à Chicoutimi, Module d'ingénierie, 1999.
40
Ramin Pichevar.

Encryptage par réseau de neurones.
Technical report, ERMETIS, Université du Québec à Chicoutimi, Juin 2000.
rapport de 11 pages.
41
Steeve Larouche and Louis Savard.

Mise en oeuvre d'un téléphone INTERNET (VoIP) avec protection de l'information sur environnement MacIntosh et algorithme d'apprentissage de réseaux de neurones en virgule fixe.
Technical report, Chicoutimi : Université du Québec à Chicoutimi, Module d'ingénierie, 2001.
42
Hassan Ezzaidi, Ivan Bourmeyster, and Jean Rouat.

A new algorithm for double talk detection and separation in the context of digital mobile radio telephone.
In IEEE-ICASSP, volume 3, pages 1897-1890, April 1997.
43
Hassan Ezzaidi, Jean Rouat, and Ivan Bourmeyster.

Reconnaissance automatique de parole en français pour milieu difficile: exemple de détection de double parole pour le radiotéléphone en mains libres.
In Ières JST du Rés. Franc. de l'Ing. de la Langue, AUPELF-UREF, pages 51-56, avril 1997.
44
Hassan Ezzaidi, Jean Rouat, and Ivan Bourmeyster.

Rehaussement de la détection de double parole dans le contexte radio téléphone mobile.
In Actes du 65 ème congrès de l'ACFAS, pages S-207, 1997.
http://www.acfas.ca/congres/congres65/S2979.htm.
45
J. Rouat and M. Garcia.

A prototype speech recogniser based on associative learning and nonlinear speech analysis.
In Rosenthal and Okuno, editors, Computational Auditory Scene Analysis, pages 13-26. L. Erlbaum, 1998.

À propos de ce document...

This document was generated using the LaTeX2HTML translator Version 2002 (1.62)

Copyright © 1993, 1994, 1995, 1996, Nikos Drakos, Computer Based Learning Unit, University of Leeds.
Copyright © 1997, 1998, 1999, Ross Moore, Mathematics Department, Macquarie University, Sydney.

The command line arguments were:
latex2html -ascii_mode -split 0 bilanTravauxUnix.tex

The translation was initiated by rouat on 2003-03-22


Notes

... ROUAT 1
http://www.usherbrooke.ca/gelecinfo/personnel/profs/rouat.html, 22 mars 2003

rouat 2003-03-22