Önálló labor : VID2SPEECH: beszédgenerálás néma videóból, deep learning alapon

BME - Távközlési és Médiainformatikai Tanszék - TMIT

| Témakiírások | | | | | IW

Témakiírások

Önálló labor

Aktuális témakiírások

Kiírt témák

>>Témakiírások >>

Ez egy előző félévben kiírt, archivált téma.

VID2SPEECH: beszédgenerálás néma videóból, deep learning alapon (VID2SPEECH: speech reconstruction from silent video of the lips using deep learning)
A VID2SPEECH témakör során a beszélő arcának (elsősorban ajkának) mozgásából generálunk beszédet, tipikusan deep learning eszközök használatával. Ehhez többféle mély tanuló eljárás is alkalmazható, melyek a bemenő adatok (ajakvideó) és a cél adatok (beszéd spektrális paraméterei) különböző reprezentációi közötti összefüggést becsülik meg. \"A beszédhangok az artikulációs szervek (hangszalagok, nyelv, ajkak stb.) koordinált mozgásának eredményéből állnak elő. Az artikuláció és a keletkező beszédjel kapcsolatát gépi tanulás alapú eszközökkel is vizsgálták már. Az artikuláció-akusztikum konverzió eredményei a szakirodalomban elsősorban az ún. 'Silent Speech Interface' (SSI, magyarul 'némabeszéd-interfész') rendszerek fejlesztéséhez járulnak hozzá. Az SSI lényege, hogy az artikulációs szervek hangtalan mozgását felvéve a gépi rendszer ebből beszédet szintetizál, miközben az eszköz használója valójában nem ad ki hangot. A hallgató feladata mély neurális hálózat alapú (pl. Konvolúciós és rekurrens neurális hálózatok) megoldás megismerése és továbbfejlesztése a Silent Speech Interface témakörben. A kidolgozott módszerek hozzájárulhatnak beszédsérültek számára kommunikációs segédeszköz készítéséhez.\"
Speechreading is a difficult task for humans to perform. However, with recent deep learning methods, it is possible to create lip-to-speech systems, which can convert silent lip motion to intelligible audible speech. The task of the student is to learn about recent deep learning methods (e.g. convolutional, recurrent neural networks, transformers, attention) and create new solutions for lip-to-speech conversion. Suggested programming languages: Python. Databases: GRID or UltraSuite-TaL, https://ultrasuite.github.io/data/tal_corpus/
Kulcsszavak: deep learning, python, convolutional
Témavezető: Csapó Tamás Gábor
Oktatók: Arthur Viktor, Csapó Tamás Gábor.
A következő tantárgyakhoz javasolt:
	vitma345	(Vill., BSc. Önálló laboratórium)
	vitma414	(Szakdolgozat)
	vitmal03	(Vill.mérn. BSc Önálló laboratórium)
	vitmm807	(Vill., MSc, Önálló laboratórium 1, Infokommunikációs rendszerek)
	vitmm857	(Vill., MSc, Önálló laboratórium 2, Infokommunikációs rendszerek)
	vitmm907	(Diplomatervezés 1. (Vill. Infokommunikációs rendszerek szakirány))
	vitmml02	(Vill,MSc,Önlab.1, Okos város,Vez.nélküli rendsz. és alk.ok,Multimédia rendsz. és szolg.,Optikai távközlés (VITMML02))
	vitmml03	(Vill,MSc,Önlab.2, Okos város,Vez.nélküli rendsz. és alk.ok,Multimédia rendsz. és szolg.,Optikai távközlés (VITMML03))
	vieum821	(Önálló munka 1)
	vieum871	(Önálló munka 2)
	vieum921	(Diplomatervezés 1 (Egészségügyi mérnök))
	vitmm376	(Projekt labor 1)
	vitmm377	(Diplomatervezés 1 [analytics])
	vitmm388	(Projekt labor 2)

QR: (mi is az?)
	katt. a nagyításhoz

VID2SPEECH: beszédgenerálás néma videóból, deep learning alapon (VID2SPEECH: speech reconstruction from silent video of the lips using deep learning)