Önálló labor : VID2SPEECH: beszédgenerálás néma videóból, deep learning alapon

BME - Távközlési és Médiainformatikai Tanszék - TMIT

| Témakiírások | | | | | IW

Témakiírások

Önálló labor

Aktuális témakiírások

Kiírt témák

>>Témakiírások >>

Ez egy előző félévben kiírt, archivált téma.

VID2SPEECH: beszédgenerálás néma videóból, deep learning alapon (VID2SPEECH: speech reconstruction from silent video of the lips using deep learning)			Ipari partner: MTA-ELTE Lendület Lingvális Artikuláció Kutatócsoport
Speechreading is a difficult task for humans to perform. However, with recent deep learning methods, it is possible to create lip-to-speech systems, which can convert silent lip motion to intelligible audible speech. The task of the student is to learn about recent deep learning methods (e.g. convolutional and recurrent neural networks) and create new solutions for lip-to-speech conversion. Suggested programming languages: Python. The research will be conducted in collaboration with the MTA-ELTE Lingual Articulation Research Group (Momemtum grant, http://lingart.elte.hu).
Kulcsszavak: deep learning, python, convolutional
Témavezető: Csapó Tamás Gábor
Oktatók: Csapó Tamás Gábor.
A következő tantárgyakhoz javasolt:
	vitma367	(Info, BSc, Önálló laboratórium, Infokommunikációs hálózatok és alkalmazások ágazat)
	vitma380	(Info, BSc, Önálló laboratórium, Médiainformatika ágazat)
	vitma387	(Önlab, IVIR szakirány)
	vitma415	(Szakdolgozat)
	vitma416	(Szakdolgozat)
	vitma417	(Szakdolgozat, IVIR szakirány)
	vitmal01	(Info, BSc, Önálló laboratórium)
	vitmm805	(Info, MSc, Önálló laboratórium 1, Hálózatok és szolgáltatások)
	vitmm811	(Info, MSc, Önálló laboratórium 1, Médiainformatika)
	vitmm855	(Info, MSc, Önálló laboratórium 2, Hálózatok és szolgáltatások)
	vitmm861	(Info, MSc, Önálló laboratórium 2, Médiainformatika)
	vitmm905	(Diplomatervezés 1. (Info, Hálózatok és szolgáltatások szakirány))
	vitmm911	(Diplomatervezés 1. (Info, Médiainformatika szakirány))
	vitmml00	(Info,MSc,Önlab.1, Internet arch. és szolg.,Adat- és médiainformatika,Mobil hálózatok és szolg. integrációja (VITMML00))
	vitmml01	(Info,MSc,Önlab.2, Internet arch. és szolg.,Adat- és médiainformatika,Mobil hálózatok és szolg. integrációja (VITMML01))
	vitma345	(Vill., BSc. Önálló laboratórium)
	vitma414	(Szakdolgozat)
	vitmm807	(Vill., MSc, Önálló laboratórium 1, Infokommunikációs rendszerek)
	vitmm857	(Vill., MSc, Önálló laboratórium 2, Infokommunikációs rendszerek)
	vitmm907	(Diplomatervezés 1. (Vill. Infokommunikációs rendszerek szakirány))
	vitmml02	(Vill,MSc,Önlab.1, Okos város,Vez.nélküli rendsz. és alk.ok,Multimédia rendsz. és szolg.,Optikai távközlés (VITMML02))
	vitmml03	(Vill,MSc,Önlab.2, Okos város,Vez.nélküli rendsz. és alk.ok,Multimédia rendsz. és szolg.,Optikai távközlés (VITMML03))
	vieum821	(Önálló munka 1)
	vieum871	(Önálló munka 2)
	vieum921	(Diplomatervezés 1 (Egészségügyi mérnök))
	vitmm376	(Projekt labor 1)
	vitmm377	(Diplomatervezés 1 [analytics])
	vitmm388	(Projekt labor 2)

QR: (mi is az?)
	katt. a nagyításhoz

VID2SPEECH: beszédgenerálás néma videóból, deep learning alapon (VID2SPEECH: speech reconstruction from silent video of the lips using deep learning)