Önálló labor : Nagy nyelvi modellek és beszédfelismerési modellek integrálása

Budapesti Műszaki és Gazdaságtudományi Egyetem - BME -- Távközlési és Médiainformatikai Tanszék - TMIT

Dept. of Telecommunications and Artificial Intelligence - TMIT

Magyar

| IW

Tematic

Research and Tematic Laboratory

Student topics

>>

Ez egy előző félévben kiírt, archivált téma.

Nagy nyelvi modellek és beszédfelismerési modellek integrálása (Integration of LLM's and speech recognition models)
Converting natural speech into text remains a significant challenge when requirements include speaker separation, punctuation, named entity tagging, recognition of foreign language expressions, and high accuracy even in noisy environments. While the application of classical/neural language models is fundamental in this domain, the use of (very) large language models (LLMs, e.g., GPT-4, ChatGPT, LLAMA, BARD, etc.) is far from straightforward. The task for the student is to explore both direct applications of LLMs in supporting speech-to-text conversion and their use in post-processing (e.g., correction). This topic can be extended to a thesis project - and beyond.
Converting natural speech into text remains a significant challenge when requirements include speaker separation, punctuation, named entity tagging, recognition of foreign language expressions, and high accuracy even in noisy environments. While the application of classical/neural language models is fundamental in this domain, the use of (very) large language models (LLMs, e.g., GPT-4, ChatGPT, LLAMA, BARD, etc.) is far from straightforward. The task for the student is to explore both direct applications of LLMs in supporting speech-to-text conversion and their use in post-processing (e.g., correction). This topic can be extended to a thesis project - and beyond.
Kulcsszavak: LLM, deep learning, beszéd-szöveg átalakítás
Témavezető: Mihajlik Péter
Oktatók: Mihajlik Péter.
A következő tantárgyakhoz javasolt:
	vitma387	(Önlab, IVIR szakirány)
	vitma415	(Szakdolgozat)
	vitma416	(Szakdolgozat)
	vitma417	(Szakdolgozat, IVIR szakirány)
	vitmal01	(Info, BSc, Önálló laboratórium)
	vitmm855	(Info, MSc, Önálló laboratórium 2, Hálózatok és szolgáltatások)
	vitmm861	(Info, MSc, Önálló laboratórium 2, Médiainformatika)
	vitmm905	(Diplomatervezés 1. (Info, Hálózatok és szolgáltatások szakirány))
	vitmm911	(Diplomatervezés 1. (Info, Médiainformatika szakirány))
	vitmml10	(Info, MSc, Önálló laboratórium 1)
	vitmml11	(Info, MSc, Önálló laboratórium 2)
	vitma345	(Vill., BSc. Önálló laboratórium)
	vitma414	(Szakdolgozat)
	vitmal03	(Vill.mérn. BSc Önálló laboratórium)
	vitmm807	(Vill., MSc, Önálló laboratórium 1, Infokommunikációs rendszerek)
	vitmm857	(Vill., MSc, Önálló laboratórium 2, Infokommunikációs rendszerek)
	vitmm907	(Diplomatervezés 1. (Vill. Infokommunikációs rendszerek szakirány))
	vitmml02	(Vill,MSc,Önlab.1, Okos város,Vez.nélküli rendsz. és alk.ok,Multimédia rendsz. és szolg.,Optikai távközlés (VITMML02))
	vitmml03	(Vill,MSc,Önlab.2, Okos város,Vez.nélküli rendsz. és alk.ok,Multimédia rendsz. és szolg.,Optikai távközlés (VITMML03))
	vieum821	(Önálló munka 1)
	vitmm379	(Önálló laboratórium 1)
	vitmm380	(Önálló laboratórium 2)
	vitmm381	(Diplomatervezés 1)
	vitmm382	(Diplomatervezés 2)

QR: (mi is az?)
	katt. a nagyításhoz

Nagy nyelvi modellek és beszédfelismerési modellek integrálása (Integration of LLM's and speech recognition models)