Description

Dyma gorpws o frawddegau o destun Cymraeg wedi'u trwyddedu o dan drwydded CC0. Ar hyn o bryd, mae'r corpws yn cynnwys bron i 20,000 o frawddegau dros 180,000 o docynnau, a'r bwriad yw parhau i'w gynyddu wrth i ni gael gafael ar destunau o dan y drwydded briodol. Bwriad y corpws hwn y galluogi hyfforddi modelau iaith Cymraeg ar gyfer sawl diben gwahanol. Casglwyd y testunau o wahanol ffynonellau gan gynnwys testunau allan o hawlfraint a thestunau a rannwyd รข ni o dan drwydded CC0 gan awduron gwreiddiol, er enghraifft erthyglau Wicipedia a negesuon Twitter a ysgrifenwyd gan yr unigolion hynny. Mae'r testunau hefyd yn cynnwys brawddegau a awdurwyd gan staff y project er mwyn darparu enghreifftiau o nodweddion ieithyddol penodol i'r corpws. Casglwyd llawer o'r testunau hyn er mwyn eu cyfrannu i Common Voice, project gan gwmni Mozilla sy'n casglu data agored er mwyn creu lleisiau synthetig ar gyfer ieithoedd y byd. Mae'r ffeil hon felly yn cynnwys nifer o'r un brawddegau a geir yn https://github.com/techiaith/brawddegau-adnabod-lleferydd, ond yn ychwanegol at hynny ceir brawddegau eraill oedd yn rhy hir ar gyfer anghenion Common Voice, neu'n cynnwys nodau neu gynnwys arall a oedd yn anaddas ar gyfer y promtiau recordio.
Date made available29 Oct 2021
PublisherPrifysgol Bangor University
Date of data production29 Oct 2021

Cite this