Modelau Cyfrifiadurol ar gyfer Prosesu Lleferydd Cymraeg

Electronic versions

Dogfennau

  • Indeg Marshall

    Meysydd ymchwil

  • adnabod lleferydd, ieithoedd llai eu hadnoddau, ieithoedd lleiafrifol, modelu cyfrifiadurol, cynorthwyydd deallus, data Cymraeg, HTK, Kaldi, DeepSpeech, Common Voice, trosglwyddo dysgu, PhD, Doethur mewn Athroniaeth (PhD)

Abstract

Pwrpas y traethawd hir hwn yw asesu sefyllfa bresennol adnabod lleferydd Cymraeg gan gymharu effaith gwahanol fathau o fodelu, effaith y maint a math o ddata ar gyfer hyfforddi, ac effaith profi ar ddata o acenion gwahanol.

Mae adnabod lleferydd yn rhan o gynorthwywyr personol deallus megis Apple Siri, Amazon Alexa, a Google Home, oll yn dibynnu’n drwm ar gorpora preifat cwmnïoedd masnachol mawr. Oherwydd argaeledd y data, mae ymchwil ym maes adnabod lleferydd yn aml wedi’i seilio ar Saesneg, ar gyfer Saesneg. Mae data addas yn brin ar gyfer y Gymraeg, ac er bod modd edrych i ffynonellau sy’n bodoli’n barod er mwyn casglu mwy o ddata, mae costau a chyfyngiadau trwyddedu yn gallu bod yn rhwystredig. Ystyriaeth bwysig arall yw amrywio o fewn iaith ar gyfer adnabod lleferydd. Mae’r systemau gorau ar y farchnad yn aml yn methu wrth ymdopi ag amrywiadau acen er enghraifft. Wrth ystyried y Gymraeg fel iaith gynhyrchiol, sydd â nifer o ffurfiau gwahanol ac amrywiadau iddi, heb ddata digonol mae hyn yn her ychwanegol ar gyfer adnabod lleferydd.

Nod y gwaith hwn felly yw cymharu sut orau i fynd ati i adeiladu system adnabod lleferydd gadarn, i weld pa faint a math o ddata sydd fwyaf addas, ac i ymchwilio i effaith amrywio iaith o fewn y cyd-destun. Mae’r drafodaeth gyffredinol ynghylch sut orau i fynd ati i gasglu neu i greu data pellach er mwyn cyrraedd y nod hwn.

Cynhelir profion gyda chitiau offer HTK, Kaldi a DeepSpeech, er mwyn arbrofi gyda modelau gwahanol a deall mwy am sut maent yn ymdopi gyda’r Gymraeg. Defnyddir cyfuniad o ddata hyfforddi geiriau unigol corpws Paldaruo a brawddegau llawn corpws Common Voice-cy er mwyn arbrofi gyda mathau a meintiau amrywiol. Hefyd, defnyddir data profi o wahanol acenion (de a gogledd) o raglenni teledu S4C er mwyn astudio effaith amrywio iaith ar system adnabod lleferydd.

Dengys y canlyniadau mai defnyddio modelau ystadegol o fewn cit offer croesryw Kaldi yw’r ffordd gorau o gael canlyniadau addawol pan fo data yn brin, gan fod canlyniadau ystadegol HTK a phen-i-ben DeepSpeech yn rhoi canlyniadau gwaeth wrth hyfforddi a phrofi gyda’r un data.

O ran hyfforddi gyda gwahanol feintiau a mathau o ddata, mae’r canlyniadau yn gymysg. Er bod y canlyniadau’n cefnogi ymchwil cynt bod mwy o ddata yn well, mae canlyniadau gwell brawddegau llawn Common Voice-cy wrth gymharu gyda geiriau unigol Paldaruo yn unig yn dangos bod math y data hyfforddi yn cael rhywfaint o effaith ar y canlyniadau hefyd.

O ran yr amrywio rhwng data o’r gogledd ac o’r de, gwelir bod y gogledd ychydig yn anoddach i brosesu ond bod dim gwahaniaeth mawr. Gwelir, fodd bynnag, ddirywiad mawr wrth brofi ar ddata acen S4C, o bosib oherwydd bod defnydd siaradwyr o’r iaith yn amrywio o fewn y data profi a bod hyn ar goll yn y data hyfforddi. Dengys profion pellach bod ychwanegu’r amrywiadau hyn i’r data hyfforddi yn gwella canlyniadau.

Awgryma hyn bod angen parhau i ddatblygu gyda chit offer Kaldi, bod angen casglu mwy o ddata, a hynny ar ffurf brawddegau llawn, wrth ystyried bod angen rheoli am amrywio iaith rhwng y data hyfforddi a phrofi. Mae’r angen am gynllunio data addas i gipio’r iaith dan sylw yn dangos bod y llwybr i ymchwil pellach yn un ar gyfer cydweithio rhwng datblygwyr ac ieithyddion, er mwyn deall mwy am ffactorau sy’n effeithio’r canlyniadau. Yn ogystal â hyn, gellid ystyried ymchwil pellach i’r dull trosglwyddo dysgu er mwyn gwneud yn fawr o fodelau niwral yn y dyfodol.

Details

Iaith wreiddiolCymraeg
Sefydliad dyfarnu
  • Bangor University
Goruchwylydd / Goruchwylwyr / Cynghorydd
Noddwyr traethodau hir
  • Knowledge Economy Skills Scholarship (KESS)
  • Cronfa Gymdeithasol Ewrop
  • Llywodraeth Cymru
Dyddiad dyfarnu30 Ebr 2021