Blog gwadd: Sut mae dysgu cyfrifiadur i ddeall Cymraeg?

Tachwedd 2024 | Arfor, Awtomeiddio ac AI, Sylw

red round portable speaker on brown wooden table

Yn y blog gwadd hwn mae Sasha Wanasky a Myfyr Prys o gwmni cyfieithu Cymen yn trafod eu prosiect i geisio gwella’r adnoddau sydd ar gael er mwyn hyfforddi systemau adnabod lleferydd i ddeall Cymraeg. Ariannwyd y prosiect drwy grant gan raglen Gronfa Her ARFOR. Dros y misoedd nesaf byddwn yn rhoi cyfle i’r rheini sydd wedi derbyn nawdd drwy’r cynllun i rannu eu profiadau a’r hyn y maent wedi dysgu wrth fynd ati i wireddu eu prosiectau. 

Pam ydyn ni angen systemau adnabod lleferydd Cymraeg?

Mae systemau adnabod lleferydd yn golygu bod cyfrifiaduron yn gallu newid lleisiau pobl yn destun. Mae modd defnyddio’r dechnoleg hon i gynhyrchu isdeitlau awtomatig mewn fideos YouTube neu gyfarfodydd Teams, neu ganiatáu i Alexa a rhaglenni tebyg ddeall gorchmynion fel “what is the weather forecast for tomorrow” ac ateb hynny.

Byddai cynhyrchu technolegau adnabod lleferydd ar gyfer y Gymraeg yn caniatáu i siaradwyr Cymraeg ddefnyddio’r Gymraeg mewn agweddau ar eu bywydau lle maen nhw’n dal i gael eu gorfodi i ddefnyddio’r Saesneg. Un enghraifft amlwg yw’r ffaith nad yw Alexa yn gallu deall na siarad Cymraeg. Er bod yr Uned Technolegau Iaith ym Mhrifysgol Bangor wedi bod yn gweithio ar system debyg o’r enw Macsen, mae angen gwneud llawer mwy o waith i sicrhau bod y technolegau hyn gystal â’r rhai Saesneg cyfatebol. Wrth gyflwyno’r prosiect mewn digwyddiadau, un datganiad a gododd dro ar ôl tro oedd mai Alexa yw unig aelod di-Gymraeg cartrefi pobl. Byddai gwella technoleg adnabod lleferydd Cymraeg yn caniatáu i sefydliadau a chwmnïau greu cynorthwywyr rhithiol Cymraeg. Byddai hyn yn cael effaith gadarnhaol ar faint o Gymraeg mae pobl yn ei siarad yn eu bywydau bob dydd.

Ar ben hynny, byddai systemau adnabod lleferydd Cymraeg yn caniatáu i ragor o bobl gael mynediad at gyfarfodydd ar-lein a chynnwys cyfryngau drwy gyfrwng y Gymraeg. Mae’n arfer eithaf cyffredin i S4C gynhyrchu isdeitlau Saesneg ar gyfer eu cynnwys byr a hir ar gyfryngau cymdeithasol, ond mae hyn yn gorfodi pobl fyddar neu bobl ag anhwylder prosesu sain i ryngweithio â’r cynnwys hwn drwy gyfrwng y Saesneg yn unig. Mae mwy a mwy yn gwylio cynnwys byr heb sain a gallai rhoi is-deitlau Cymraeg ar y fideos hyn eu gwneud yn fwy poblogaidd a gwella sgiliau darllen Cymraeg pobl ifanc a fyddai ond yn darllen Cymraeg yn yr ysgol fel arall. Byddai cael gwasanaethau trawsgrifio Cymraeg am ddim yn caniatáu i unrhyw un greu cynnwys gydag isdeitlau Cymraeg heb fod angen llawer o brofiad trawsgrifio a byddai’n cynyddu nifer y bobl sy’n gallu rhyngweithio â chynnwys Cymraeg drwy gyfrwng y Gymraeg.

Pam mae’r Gymraeg wedi disgyn y tu ôl i ieithoedd eraill, yn enwedig Saesneg?

Mae dau brif reswm pam nad yw’r dechnoleg hon yn cael ei defnyddio mor eang yn y Gymraeg ar hyn o bryd. Yn gyntaf, er bod y technolegau hyn yn bodoli, nid yw’r allbwn yn ddigon da gyda llawer o’r systemau sydd ar gael yn gyhoeddus ac yn fasnachol. Bydd unrhyw un sydd wedi defnyddio is-deitlau Cymraeg awtomatig yn Microsoft Teams yn gwybod ei bod hi bron yn amhosibl deall beth mae’r siaradwr yn ei ddweud drwy ddarllen yr is-deitlau yn unig. Yr unig ffordd o wella’r perfformiad hwn yw ychwanegu rhagor o ddata hyfforddi at y modelau adnabod lleferydd hyn. O’u cymharu â modelau Saesneg, sydd wedi cael eu hyfforddi ar gannoedd o filoedd o oriau o recordiadau sain a’u trawsgrifiadau cyfatebol, byddai modelau Cymraeg wedi cael eu hyfforddi ar ddim ond tua 200 awr o recordiadau, sef yr holl ddata sydd ar gael i’r cyhoedd ar hyn o bryd. O’r 200 awr hyn, mae tua 37 yn recordiadau sydd wedi cael eu trawsgrifio gan unigolion, ac mae’r 163 arall yn recordiadau o bobl yn darllen brawddegau. Y bwlch enfawr hwn yn y data sydd ar gael yw’r prif reswm dros berfformiad gwael technoleg adnabod lleferydd Cymraeg.

Yn ail, nid yw llawer o gwmnïau technoleg mawr wedi mabwysiadu’r Gymraeg yn eu repertoire o ieithoedd. Ar hyn o bryd, Microsoft yw’r unig gwmni technoleg mawr sy’n darparu’r rhan fwyaf o’u meddalwedd ac is-deitlau awtomatig yn Gymraeg, nid yw Apple, Amazon na Google wedi gwneud fawr ddim neu ddim o gwbl i gynnig y technolegau hyn yn Gymraeg. Y rheswm am hyn yw bod diffyg cymhelliant i’r cwmnïau mawr hyn dreulio amser ac adnoddau ar wella adnabod lleferydd awtomatig Cymraeg gan nad yw’r ymdrechion hyn yn debygol o arwain at elw. Felly, mater i sefydliadau, i lywodraethau ac i unigolion yng Nghymru yw sicrhau bod y data sydd ei angen i wella’r systemau hynny’n cael ei gynhyrchu a’i ddarparu’n gyhoeddus i gwmnïau bach a mawr ei ddefnyddio am ddim.

Nod y prosiect

Nod y prosiect hwn yw casglu cymaint o oriau o recordiadau sain â phosibl a chael unigolion i’w trawsgrifio. Yn benodol, mynd i’r afael â heriau ychwanegol fel diffyg data anffurfiol a sgyrsiol, data o ganolbarth a de orllewin Cymru (ardal Arfor), acenion a thafodieithoedd pobl nad ydynt yn ffigurau cyhoeddus, fel cyflwynwyr radio, actorion, cerddorion ac ati, a chynhyrchu set ddata sy’n ffynhonnell gwbl agored fel y gall unrhyw ddatblygwyr gynnwys adnabod lleferydd Cymraeg yn eu cynnyrch neu raglenni eu hunain.

Prif ddulliau o gasglu data

Drwy gydol y prosiect, fe wnaethom gasglu data o dair prif ffynhonnell: Podlediadau, cyfarfodydd ar-lein ychydig yn fwy ffurfiol, cyflwyniadau a sgyrsiau anffurfiol iawn rhwng gwirfoddolwyr a gafodd eu recriwtio fel rhan o’r prosiect. Daethom o hyd i’r rhan fwyaf o’r podlediadau drwy’r wefan podlediadau Cymraeg ypod.cymru. O’r fan honno, fe wnaethon ni ddechrau cysylltu â pherchnogion y podlediadau sy’n bodloni meini prawf penodol, fel peidio â chael gormod o westeion neu bodlediadau a allai helpu i fynd i’r afael â’r heriau a nodir uchod. Mae’r podlediadau a gafodd eu defnyddio’n amrywio o drafodaethau ar benodau diweddaraf rhaglenni teledu realaeth i lenyddiaeth Cymraeg a rhaglenni comedi.

Cafodd y cyflwyniadau a’r sgyrsiau eu recordio’n rhannol drwy Microsoft Teams ac yn rhannol wyneb yn wyneb mewn digwyddiadau fel Gŵyl Ddewi Arall a’r Eisteddfod a thrwy ymweld â gwirfoddolwyr a oedd yn byw yn yr ardal. Roedd hyn yn gyfle i siarad â phobl o bob cefndir am y prosiect, eu profiad o dechnolegau Cymraeg a’u dymuniadau i’r dyfodol. Cafodd y rhan fwyaf o’r gwirfoddolwyr eu recriwtio drwy rannu taflenni mewn clybiau a chymdeithasau Cymraeg lleol, drwy gael gwahoddiad i siarad am y prosiect ar Radio Cymru a gofyn i ffrindiau a theulu sôn am ein gwaith. Roedd y rhan fwyaf ohonyn nhw’n dod o’r De-orllewin ac roedd recordio’r sgyrsiau drwy Teams yn ffordd lwyddiannus iawn o gasglu’r math hwn o ddata yn effeithlon. Ffordd lwyddiannus iawn arall o gasglu llawer iawn o ddata mewn cyfnod byr oedd yr Eisteddfod Genedlaethol ym Mhontypridd. Fel y swyddog prosiect, roeddwn yn gallu teithio yno a recordio amrywiaeth eang o gyflwyniadau a sgyrsiau o ddigwyddiadau llai yn bennaf yn stondinau Paned o Gê, Cymdeithas yr Iaith a Phrifysgolion.

Canlyniadau cyffredinol a’r effaith ar y Gymraeg

Ar ôl gweithio ar y prosiect hwn am bron i flwyddyn, rydyn ni wedi llwyddo i drawsgrifio 50 awr o ddata sain. Ac ystyried natur heriol y math hwn o waith mae’r ffaith ein bod wedi gallu gwneud hyn mewn cwta flwyddyn yn brawf o lwyddiant cyffredinol y prosiect. Er mwyn cymharu, 35 awr oedd cyfanswm nifer yr oriau o ddata siarad sgyrsiol a oedd wedi cael ei gasglu cyn y prosiect hwn. Wrth gwrs, ni fyddem wedi gallu casglu’r holl ddata heb ymdrechion 13 o drawsgrifwyr llawrydd a gafodd eu recriwtio a’u hyfforddi fel rhan o’r prosiect hwn a 5 myfyriwr a gyflogwyd gan Cymen dros yr haf i gael profiad o waith mewn gweithle cwbl Gymraeg. Mae tua 5 o’r trawsgrifwyr llawrydd hyn wedi mynegi diddordeb mewn parhau i gynnig eu gwasanaethau trawsgrifio i Cymen ac i gwmnïau eraill. Dod o hyd i drawsgrifwyr medrus oedd un o’r heriau mwyaf ar y cychwyn, ond drwy’r prosiect rydyn ni wedi gallu cyfrannu’n sylweddol at y maes hwn nad oedd wedi’i ddatblygu’n ddigonol. Mae’r prosiect hefyd wedi galluogi Cymen i gyflogi un swyddog prosiect llawn amser a thrwy hynny cefnogi’r economi leol drwy greu swyddi. Drwy gydol y prosiect roedd Cymen hefyd yn gallu sefydlu a chryfhau cysylltiadau â chwmnïau a sefydliadau eraill yn y maes, megis yr Uned Technolegau Iaith ym Mhrifysgol Bangor, Bangor AI ac ymchwilwyr annibynnol yn Llydaw. Gallai’r cysylltiad â Llydaw arwain at ragor o brosiectau sy’n canolbwyntio ar gyfnewid gwybodaeth rhwng yr ymchwilwyr a gobeithio bydd hyn yn arwain at ddatblygiadau newydd a gwelliannau mewn adnabod lleferydd yn y naill wlad a’r llall.

I gloi, mae’r modelau adnabod lleferydd cyntaf wedi cael eu hyfforddi ar is-set o’r data rydyn ni wedi’i gasglu ac mae’r canlyniadau’n edrych yn addawol dros ben. Mae’r graff isod yn dangos y gyfradd geiriau gwallus (WER) cyn defnyddio ein data i hyfforddi’r model ac ar ôl hyfforddi’r model gyda 5, 10, a 15 awr o’n data. Mae’r WER yn fesur safonol mewn ymchwil adnabod lleferydd, sy’n rhoi canran y gwallau yn y trawsgrifiad mae peiriant yn ei gynhyrchu wrth gymharu â thrawsgrifiad mae unigolyn yn ei gynhyrchu. Gan ei fod yn cyfrif y gwallau sydd yn y trawsgrifiad awtomatig, yr isaf yw’r WER, y gorau yw’r model. Ar ôl hyfforddi’r model gyda dim ond 5 awr o ddata, mae’r WER yn disgyn 24%, ar ôl 5 awr arall mae’n disgyn 4% arall ac ar ôl 5 awr arall mae’n gwella dim ond 0.4% sy’n cyrraedd rhyw fath o fan gwastad. Wrth hyfforddi’r model gyda’n data ni a data’r Uned Technolegau Iaith ym Mhrifysgol Bangor, llwyddodd y model i gael WER cyn ised â 28%, sydd 7% yn is na’n model gorau ni. Mae model gyda dim ond data’r Uned Technolegau Iaith yn cyflawni WER o 45%, 10% yn uwch na’n model ni. Mae hyn yn dangos bod cyfuno’r ddwy set ddata yn arwain at fodel sy’n gyfarwydd ag amrywiaeth ehangach o leisiau, acenion, pynciau a chyweiriau ac y dylai prosiectau pellach ganolbwyntio ar gasglu’r holl amrywiaeth sydd gan Gymru i’w chynnig i sicrhau bod technolegau adnabod lleferydd Cymraeg yn gweithio i bob siaradwr Cymraeg.

Cofrestrwch i dderbyn ein bwletin newyddion

Cofrestrwch heddiw os hoffech dderbyn ebost rheolaidd yn cynnwys erthyglau diweddaraf Arsyllfa.

Cofrestrwch i dderbyn ein bwletin newyddion

Cofrestrwch heddiw os hoffech dderbyn ebost rheolaidd yn cynnwys erthyglau diweddaraf Arsyllfa.

Choose a language

Llwyddiant!

Share This