Smaller Default Larger

Soutenance de thèse de Doctorat en Informatique : Mme HAZMOUNE Samira

Soutenances

Mme. HAZMOUNE Samira soutiendra une thèse de Doctorat en sciences en informatique intitulée :"Contributions à la Reconnaissance Automatique de la Parole. "

Membres du jury:
                       Président:             Mohamed REDJIMI                 Prof        Université 20 août 1955-Skikda
                       Rapporteur:          Mohamed BENMOHAMMED     Prof        Université Abdelhamid Mehri- Constantine 2
                       Co-rapporteur :      Smaine MAZOUZI                   Prof        Université 20 août 1955-Skikdaa
                       Examinateur :        Bachir BOUCHEHAM              Prof        Université Abdelhamid Mehri- Constantine 2
                       Examinateur:         Ramdane MAMRI                   Prof        Université Abdelhamid Mehri- Constantine 2

                                 Examinateur:              Said LABED                                      MCA          Université Abdelhamid Mehri- Constantine 2


Résumé Arabe

هذه الأطروحة تندرج في الإطار العام للتعرف الآلي على الكلام (RAP) الذي، على الرغم من تطوره المذهل على مدى العقد الماضي، لا يزال يجذب انتباه المجتمع العلمي، فتصميمنظام SRAP يتسم بالكفاءة والثباتفي آن واحد يظل إشكالية. الهدف النهائي من هذا العمل هو اقتراح حلول لتحسين دقةSRAP وثباتها في مواجهة تغير البيانات، وخاصة في حالة التطبيقات محدودة المفردات.

ترتكز مساهمتنا في هذا السياق على نقطتين رئيسيتين: أولاً، نقترح مقاربة هجينة جديدةتعتمد على نمذجة متعددة بنماذج ماركوف المخفية ((HMM. في هذه المقاربة، يتم دمج HMM في بنية-NN على مستوى التمثيل وعلى مستوى التعرف. ويبقى الهدف هو تصميم مصنِّف يرث كلاً من ثباتk-NN وكفاءة خوارزميات HMM مع تجنب عيوبكل منهما.النقطة الثانية من مساهمتنا هي اقتراح مقاربة مجموعاتية جديدةوالتي هي، مثل المقاربة الأولى، قائمة على نمذجة ماركوف المتعددة.تكمن الفكرة في إنشاء العديد من النماذج، لنفس فئة البيانات، انطلاقا من إعدادات أولية مختلفة. بعد ذلك يتم تجميع هذه النماذج في مصنفات ليتم دمجها لاحقا في مرحلة التعرف. بالإضافة إلى ذلك، قمنا بإعداد دراسة تجريبية لتأثير الإعدادات الأولية المختلفة لخوارزميةالتعلم لماركوف على إنشاء مجموعات المصنفات، حيث نقوم بإجراء تحليل عميق للعلاقة بين كل إعداد ومقاييس التنوع المستخدمة بشكل شائع في أدبيات هذا المجال. حيث، وعلى حد علمنا، لم يتم التطرقلهذه المشكلة بهذه الطريقة من قبل. تسمح النمذجة المتعددة المقترحة، من ناحية، بتخفيفتأثير الإعداداتالأولية على النتائج، لأنه يتم أخذ جميع الإعداداتالمعقولة في الاعتبار، ومن ناحية أخرى،بتحسين الثبات مهما تغيرت البيانات، لأن هناك فرصة جيدة أن يجد مثال الاختبار الجديد نموذجًا يمثلهتمثيلا جيدًا في مجموعة النماذج التي تم إنشاؤها.

يتم تقييم مساهماتنا باستخدام قاعدة الأرقام العربية المنطوقة "SpokenArabic Digits " (Lichman 2013). تظهر نتائج المقارنة تفوق مقارباتنا المقترحة من حيث الأداء والثبات، من ناحية، على HMM و-NNالأساسية، ومن ناحية أخرى، على الأعمال السابقة.

يمكن تطبيق المقاربات المقترحة مباشرة في مجال الأوامر الصوتية (الطلبات الآليةالهاتفية على سبيل المثال) حيث تكون المفردات المحدودة كافية، أو تكييفها بسهولة مع الكلام المستمر بمفردات كثيرةباستخداممنهج تحليلي قائم على الصوتيات السياقية كوحدات نمذجة صوتية، والاستفادة من التجزئة الضمنية التي تقدمها نماذج .HMM

الكلمات المفتاحية: التعرف على الكلام، تغيرات البيانات، الثبات،الدقة، HMM، EM، النمذجة المتعددة، مجموعات المصنفات، التنوع، الأنظمة الهجينة،HMM / -NN


 Résumé Français

Cette thèse s’inscrit dans le cadre général de la reconnaissance automatique de la parole (RAP) qui, malgré son évolution frappante durant la dernière décennie, continue à attirer l’attention de la communauté scientifique, car la conception d’un SRAP (système de RAP), à la fois performant et robuste, reste toujours une problématique. L’ultime objectif de ce travail est de proposer des solutions pour améliorer les performances des SRAP, et de booster leur robustesse face à la variabilité des données, et ce, dans le cas particulier d'une application à vocabulaire limité.

Notre contribution, dans ce contexte, s’axe sur deux points principaux : En premier lieu, nous proposons une nouvelle approche hybride basée sur une modélisation multiple par les modèles de Markov cachés (HMM). Dans cette approche, les HMM sont intégrés au sein d’une architecture -NN (-Nearest Neighbors) au niveau représentation et au niveau reconnaissance. L’objectif est de concevoir un classifieur héritant à la fois de la robustesse du -NN et de l’efficacité des HMM tout en écartant leurs inconvénients respectifs. Le second point de notre contribution est la proposition d’une approche ensembliste qui, comme la première approche, basée sur une modélisation markovienne multiple. L’idée est de faire apprendre, pour la même classe de données, plusieurs modèles, obtenus à partir de différentes configurations initiales. Ces modèles doivent ensuite être regroupés dans des classifieurs qui seront combinés durant la phase de reconnaissance. En plus, nous mettons en place une étude expérimentale visant à montrer l’impact des différents paramètres initiaux de l’apprentissage markovien sur la création des ensembles de classifieurs, où nous faisons une analyse profonde de la relation entre chaque paramètre et les mesures de diversité utilisées couramment dans la littérature. Ce problème, à notre connaissance, n’a jamais été exploré de la façon avec laquelle nous l’avons abordé. La modélisation multiple proposée permet, d’une part, de réduire l'influence de la configuration initiale des paramètres de l’apprentissage, car toutes les initialisations raisonnables sont prises en compte, et d’autre part, d’améliorer la robustesse face à la variabilité des données, car il y a une grande chance qu’un nouvel exemple de test trouvera un modèle qui le représente bien dans l’ensemble des modèles générés.

Nos contributions sont évaluées en utilisant la base des chiffres arabes « SpokenArabic Digits » (Lichman 2013). Les résultats comparatifs en termes de performances et de robustesse montrent la supériorité de nos approches, d'une part, sur un HMM et un -NN de base, et d'autre part, sur des travaux précédents de la littérature.

Les approches proposées peuvent être appliquées directement dans le domaine de la commande vocale (un composeur téléphonique par exemple) où un vocabulaire limité est suffisant. Comme elles peuvent être adaptées facilement à la parole continue à grand vocabulaire en utilisant, dans ce cas, une approche analytique basée sur les phonèmes contextuels comme unités de modélisation acoustique, et en bénéficiant de la segmentation implicite, assurée par les HMM.

Mots clés : reconnaissance de la parole, variabilité interlocuteurs, robustesse, performances, HMM, EM, modélisation multiple, ensembles de classifieurs, diversité, systèmes hybrides, HMM/-NN.


 Résumé Anglais

 

This thesis is part of the general framework of automatic speech recognition (RAP) which, despite its striking development over the past decade, continues to attract the attention of the scientific community. Thus, the design of a SRAP (RAP system) that is both accurate and robust remains an open issue. The ultimate objective of this work is to propose solutions to improve the performance of SRAP and boost their robustness in the face of data variability, in particular for limited vocabulary application.

 

Our contribution, in this context, focuses on two main points: First, we propose a novel hybrid approach based on multiple modeling by hidden Markov models (HMM). In this approach, HMM are integrated into a -NN architecture in both the representation and the recognition level. The aim is to design a classifier inheriting both the robustness of -NN and the efficiency of HMM, while avoiding their respective drawbacks. The second point of our contribution is the proposal of an ensemble approach which, like the first approach, based on Markovian multiple modeling. The idea is to train, for the same data class, several models coming from different initial configurations. These models must then be grouped together into classifiers which will be combined during the recognition phase. In addition, we carry out an experimental study that aims to show the impact of the different initial parameters of Markovian learning on the creation of classifiers' ensembles, where we make a deep analysis of the relationship between each parameter and the diversity measures, commonly used in the literature. To the best of our knowledge, this problem has never been explored previously in the same way that we introduce in this work. The proposed multiple modeling allows, on the one hand, to reduce the influence of the initial configuration of the training parameters on the results, because all reasonable initializations are taken into account, and on the other hand, to improve the robustness against data variability, because it is highly likely that a new test example will find a model that represents it well in the set of generated models.

 

Our contributions are evaluated using the standard dataset "Spoken Arabic Digits" (Lichman 2013). The comparative results in terms of performance and robustness show the superiority of our approaches, on the one hand, over a basic HMM and -NN, and on the other hand, over previous works in the literature.

 

The proposed approaches can be applied directly in the field of voice commands (a phone dialer for example) where, a limited vocabulary is sufficient. Also, they can easily be adapted to continuous speech with large vocabulary using, in this case, an analytical approach based on contextual phonemes as acoustic modeling units, and taking advantage of the implicit segmentation provided by HMM.

 

Keywords: speech recognition, interspeaker variability, robustness, performance, HMM, EM, multiple modeling, ensembles of classifiers, diversity, hybrid systems, HMM / -NN.