Ez egy előző félévben kiírt, archivált téma.
A beszédhangok az artikulációs szervek (hangszalagok, nyelv, ajkak stb.) koordinált mozgásának eredményéből állnak elő. Az artikuláció és a keletkező beszédjel (akusztikum) kapcsolata régóta foglalkoztatja a beszédkutatókat. Az artikuláció és az akusztikai kimenet kapcsolatát gépi tanulás alapú eszközökkel is vizsgálták már. Az artikuláció-akusztikum konverzió eredményei a szakirodalomban elsősorban az ún. 'Silent Speech Interface' (SSI, magyarul 'némabeszéd-interfész', https://t.co/M3yY4WnMmF) rendszerek fejlesztéséhez járulnak hozzá. Az SSI lényege, hogy az artikulációs szervek hangtalan mozgását felvéve a gépi rendszer ebből beszédet szintetizál, miközben az eszköz használója valójában nem ad ki hangot. A hallgató feladata deep learning alapú (pl. mély neurális hálózat, AutoEncoder) megoldás kidolgozása a Silent Speech Interface témakörben. Javasolt programozási nyelvek: Python / Octave. A kutatás az MTA-ELTE Lingvális Artikuláció Kutatócsoporttal (Lendület pályázat, http://lingart.elte.hu) együttműködésben történik.
Speech sounds are produced as the coordinated movement of the articulatory organs (vocal folds, tongue, lips, etc.). In the international research, the machine learning based articulatory-to-acoustic mapping is also referred as 'Silent Speech Interface' (SSI, https://t.co/M3yY4WnMmF). The main idea of SSI is that by recording the speechless movement of the speaking organs, the algorithms can synthesize speech while the original speaker is not producing any speech sound. The task of the student is to develop deep learning (e.g. deep neural network, AutoEncoder) solutions for the Silent Speech Interface topic. Suggested programming languages: Python / Octave. The research will be conducted in collaboration with the MTA-ELTE Lingual Articulation Research Group (Momemtum grant, http://lingart.elte.hu/en).