Category Archives: Adnoddau Corpws

Corpws Lleferydd Cymraeg GALLU

Un o brif amcanion project GALLU yw casglu corpws lleferydd Cymraeg newydd pwrpasol drwy ddulliau torfoli er mwyn datblygu system LVCSR (large vocabulary continuous speech recognition) ar gyfer y Gymraeg yn y dyfodol.

Bydd y corpws yn casglu set o frawddegau sy’n cynnwys holl ffonemau’r iaith i hyfforddi modelau acwstig gyda HTK. Wedyn datblygir gramadeg i drosi’r ffonemau a adnabuwyd yn eiriau llawn. Bydd y modelau a’r system adnabod lleferydd Cymraeg yn adnoddau cod agored o fewn meddalwedd Julius.

Erbyn diwedd y project (diwedd mis Awst 2014) bydd y modelau acwstig a Julius yn gallu rheoli symudiad braich robot drwy gyfrwng gorchmynion llafar Cymraeg ar gyfer y Raspberry Pi.

Bydd y system adnabod lleferydd Cymraeg, y corpws hyfforddi’r systemau acwstig a’r cod i beri i feddalwedd ymateb i orchmynion llafar Cymraeg ar gael yn agored erbyn diwedd y project.

Bydd modd ymgorffori’r allbynnau mewn projectau clybiau a gwersi codio i blant yng Nghymru.

Ar hyn o bryd, mae ‘na 20 recordiad o gyfranwyr yn llefaru’r promptiau sampl sydd wedi cael eu hysgrifennu i hyfforddi’r fraich robot. Cliciwch yma i’w llwytho nhw i lawr.

Corpws Enghreifftiol Cyweiriau Iaith

Mae’r Corpws Enghreifftiol Cyweiriau Iaith yn gorpws bychan o destunau Cymraeg a godwyd â llaw o gorpws ymchwil Cysill Ar-lein. Mae’r corpws wedi’i anonymeiddio â llaw a’i rannu’n segmentau sy’n cyfateb fel arfer i frawddegau. Dosbarthwyd y segmantau i gategorïau gwahanol gan yr ymchwilydd yn ôl eu cywair.

corpws_cyweiriau

Y categorïau a ddefnyddwyd wrth ddosbarthu’r testun oedd:

 • Hynafol
 • Clasurol
 • Ffurfiol
 • Technegol
 • Niwtral
 • Iaith Symledig / Cymraeg Clir
 • Anffurfiol
 • Anffurfiol iawn / llafar
 • Tafodieithol
 • Sathredig

Lluniwyd matrics teipoleg cyweiriau iaith er mwyn hwyluso’r dasg o ddosbarthu’r testun. Gellir canfod y matrics yma.

Matrics Teipoleg Cyweiriau Iaith

Yn yr ymarferiad isod, diffinnir cywair i olygu dosbarthiad sy’n dangos lefel berthynol yr iaith a ddynodir yn unigol i geirem, term neu fath o destun.

At ddibenion casglu corpws, mae’n gymorth i ni fedru adnabod rhai teipiau gwahanol o destun yn awtomatig, a cheisio dosbarthu testunau o’r un teip yn unol â hynny. Gellir cael sawl model gwahanol i ddosbarthu ac adnabod cyweiriau, bwriad yr isod yw cynnig patrwm i gynorthwyo’r gwaith hynny yn gyfrifiadurol, yn hytrach na chynnig canllawiau ysgrifennu.

Nid yw’r isod yn ddosbarthiadau caeedig, ac fel arfer ceir cymysgedd o nodweddion gwahanol mewn testunau. Amlder y defnydd o wahanol nodweddion sy’n cynorthwyo’r peiriant i gael gwell syniad o’r cywair dan sylw, yn hytrach na bodolaeth syml nodweddion unigol mewn testun penodol.

Dynoda * ffurf sydd wedi’i rhagnodi yn arddulliadur Cyfieithwyr Llywodraeth Cymru ond sydd ddim o reidrwydd yn cyfateb i deipoleg disgrifiadol o’r gwahanol gyweiriau.

Dynoda ** ffurf sydd wedi’i rhagnodi mewn Cymraeg Clir.

Wrth gyfeirio at eirfa, golyga ‘safonol’ yma ffurfiau sydd wedi’u nodi fel arfer ym mhrif eiriaduron y Gymraeg. 

Hynafol

Clasurol

Ffurfiol

Technegol

Niwtral

Iaith symledig / Cymraeg Clir

Anffurfiol

Anffurfiol iawn/llafar

Tafodieithol

Sathredig

Llawnder ffurfiau’r ferf

Yr ydwyf…..

Yr wyf….

Rwyf….

Rwy….

Rwy….

Rwy….

Dw i… [*Rydw i…]

Dw i …./Wi…./I fi….

Dw i …./Wi…./I fi….

Fi….

Modd dibynnol

X

X

X

X

X

X

X

Defnydd o’r amhersonol

X

Yn fwy cyffredin yn y gorff. na’r pres.

X

X

X

Cwmpasog a chryno

Cryno

 

Cryno

Cryno yn bennaf

Cryno yn bennaf

Cymysg. Defnyddio ‘caiff’ i oresgyn
problem cryno/cwmpasog

Cwmpasog ac eithrio rhai cyfarwydd iawn

Cymysg

Cymysg gyda’r cwmpasog yn llawer mwy cyffredin

Cwmpasog yn y gogledd, cryno anffurfiol
yn y de (e.e. es i yn lle euthum/ nes i fynd/ddaru mi fynd)

Ffurfiau amrywiol ansafonol yn
gyffredin

Terfyniad 3ydd lluosog pres.

–nt hwy

–nt hwy

–nt hwy

–nt hwy

–nt hwy/-n nhw

-n nhw

-n nhw

-n nhw

-n nhw

-n nhw

Geirynnau rhagferfol

X

X

Achlysurol

X

X

Rhagenwau personol

Chwi, chwychwi

Chwi/chi [*chi]

chi

Defnydd o ffurfiau personol yn brin

chi

chi

chi

Chi/ti

Chi/ti/chdi/fe

Chi/ti/chdi/fe

Negyddu

Nid ydwyf….

Nid wyf….

Nid wyf….

Nid wyf/ Dw i ddim…

Nid wyf/ Dw i ddim…

Dw i ddim…

Dw i ddim…  [*Dydw i ddim….]

Dw i ddim…

Dw i’m/Sai’n…./Sana i…./Nagw i….

Fi ddim….

Brawddeg hir, amlgymalog

X

X

X [**Dim mwy na 25 gair mewn brawddeg]

X

X

X

X

Geirfa

Gall gynnwys geiriau hynafol/
anarferedig

Gall gynnwys geiriau hynafol ond
arferedig

Geirfa gyfoes safonol

Termau technegol parth-benodol

Geirfa gyfoes safonol

Geirfa wedi’i symleiddio

Syml safonol

Syml gydag elfennau
cwtogi/cywasgu/ymwthiol

Marcwyr tafodieithol amlwg:

De: taw

ma’s/mâs, moyn, ffaelu

Gogledd: efo/ hefo, lan,rŵan

ddaru

Gall gynnwys geiriau anweddus,
rhegfeydd, llawer o eiriau Saesneg

Cwtogi/cywasgu

X

X

X

X

X

X

Llafariaid ymwthiol

X

X

X

X

X

X

 
 
Cyfatebiaeth Math Testun a Chywair

Noder: gall llenyddiaeth greadigol e.e. nofelau gynnwys nifer o gyweiriau gwahanol er mwyn cyfleu gwahanol effeithiau ac felly nis cymhwysir isod

  Hynafol Clasurol Ffurfiol Technegol Niwtral Iaith symledig / Cymraeg Clir Anffurfiol Anffurfiol iawn/llafar Tafodieithol Sathredig
Dyfyniadau o hen areithiau etc, testunau crefyddol

X

Deddfwriaeth, cytundebau gwladwriaethol

X

Adroddiadau pwyllgor, gweinyddiaeth gyhoeddus, newyddiaduraeth glasurol

X

Dogfennaeth dechnegol, papurau ymchwil

X

Traethodau plant ysgol, myfyrwyr, datganiadau i’r wasg

X

X

Ffurflenni, taflenni, gwefannau corfforaethol, ymgyrchoedd cyhoeddus

X

X

Ffurflenni, taflenni, gwefannau etc  iaith ragnodol

X

Newyddiaduraeth boblogaidd

X

X

Llythyrau preifat

X

Trawsgrifiadau o iaith lafar, sgriptiau wedi’u bwriadu i’w llefaru

X

Blogiau corfforaethol

X

X

Blogiau preifat

X

X

X

Facebook a chyfryngau cymdeithasol tebyg

X

X

X

Twitter

X

X

X

 

Project DECHE

Digido, E-Gyhoeddi a Chorpws Electronig

Project i ailgyhoeddi llyfrau Cymraeg allweddol ar gyfer ysgolheictod cyfrwng Cymraeg sydd allan o brint ar ffurf e-lyfrau yw DECHE, a ariannwyd gan y Coleg Cymraeg Cenedlaethol.

Ynghyd â diogelu’r cyhoeddiadau academaidd hyn i’r dyfodol a’u gwneud yn fwy hygyrch i fyfyrwyr a staff prifysgol, cyhoeddwyd yr e-lyfrau ar ffurf EPUB, MOBI (ar gyfer Kindle) a PDF. Mae’r e-lyfrau i’w gweld yn Llyfrgell y Coleg.

Hefyd, wrth ddigido’r testunau gosodwyd cynnwys y llyfrau mewn corpws o destunau ysgolheigaidd Cymraeg DECHE yn y Porth Corpora Cenedlaethol.

Daeth y project hwn i ben ddiwedd Gorffennaf 2016. Fodd bynnag, os ydych chi’n ymwybodol o lyfrau Cymraeg ysgolheigaidd sydd allan o brint, ac y byddai’n fuddiol eu cael ar ffurf e-lyfrau i fyfyrwyr y Coleg Cymraeg, rhowch wybod i ni. Rydyn ni’n dal yn awyddus i gasglu rhestr o lyfrau posibl i’w digido ar gyfer project pellach yn y dyfodol.

Y Rhyfel Byd Cyntaf a’r profiad Cymreig

Rydym yn rhan o broject digido ar raddfa fawr y prif ffynonellau sy’n ymwneud â’r Rhyfel Byd Cyntaf o Lyfrgelloedd, Casgliadau Arbennig ac Archifau Cymru. Cymru oedd y wlad â’r lefel uchaf o recriwtio yn y DU yn ystod y Rhyfel Byd Cyntaf.

Bydd y project yma’n cynnig casgliad digidol trefnus a chyfunol a fydd yn datgelu hanes cudd y Rhyfel Byd Cyntaf a sut y gwnaeth ddylanwadu ar bob agwedd o fywyd, iaith a diwylliant Cymru. Ar hyn o bryd mae’r ffynonellau ar wasgar ac weithiau’n anodd mynd atynt, ond maent fel casgliad yn cynnig adnodd unigryw sydd o’r diddordeb pennaf i ymchwilwyr, myfyrwyr a’r cyhoedd yng Nghymru a thu hwnt.

Bydd ein cyfraniad yn cynnwys offer cyfieithu i’r Saesneg a fydd yn rhoi mynediad am y tro cyntaf i ymchwilwyr ac i’r cyhoedd i ddeunyddiau a ysgrifennwyd yn wreiddiol yn y Gymraeg.

Gwefan y project : http://cymruww1.llgc.org.uk/cy/

Trydar : @cymruww1

Corpws Cofnod y Cynulliad

Mae Porth Corpora Cenedlaethol Cymru yn darparu rhyngwyneb hwylus ar gyfer chwilio Corpws Cofnod y Cynulliad gan ddefnyddio geiriau, termau neu ymadroddion.

Mae’r Corpws Cofnod y Cynulliad yn gorpws cyfochrog dwyieithog mewn dwy ran (1999-2003 a 2007-2010). Datblygwyd rhyngwynwb Corpws Cofnod y Cynulliad er mwyn darparu cymorth ar gyfer:

 • y rhai hynny sy’n ysgrifennu testun Cymraeg
 • cyfieithwyr dynol
 • ieithyddion ac ymchwilwyr academaidd

Gallwch chwilio yn Gymraeg neu yn Saesneg, a bydd y testun sy’n cyfateb yn cael ei amlygu mewn print trwm.

Bydd y nodwedd chwilio yn dod o hyd i unrhyw ffurf o air Saesneg neu Gymraeg, hyd yn oed os yw’r ffurf honno yn un wedi’i threiglo, ei rhedeg neu ei ffurfdroi fel arall.

Er enghraifft, gall chwilio am ‘Cymru’ ddod o hyd i ‘Gymru’, gall chwilio am ‘dweud’ ddod hyd i ddywedwyd, a gall chwilio am ‘cadair olwyn’ ddod o hyd i ‘chadeiriau olwyn’.

Mae hyn yn angenrheidiol ar gyfer chwilio effeithiol gan fod gan lawer o eiriau Cymraeg nifer helaeth o ffurfiau gwahanol.

 

Corpws Electronig o’r Gymraeg

Corpws Electronig o’r Gymraeg

Ariannwyd y project gwreiddiol yn ystod 1993/4 gyda grant o £21,000 a ddyfarnwyd gan Gyngor Cyllido Addysgu Uwch Cymru i Ellis, O’Dochartaigh & Hicks o Uned TG, Adran Gymraeg ac Ysgol Seicoleg Prifysgol Cymru Bangor.

Yr oedd yn cynnwys 1,079,032 o eiriau o ryddiaith Gymraeg ysgrifenedig, yn bennaf o 1970 ymlaen, wedi’i seilio ar 500 o samplau tua 2,000 o eiriau yr un. Tagiwyd a dadansoddwyd y data ar gyfer gwahanol astudiaethau ieithyddol, ac mae’r ffeiliau gwreiddiol yn cael eu cynnal bellach gan staff yr Uned Technolegau Iaith.

Oherwydd y galw am ryngwyneb chwiliadwy, cyfeillgar i’r corpws, datblygodd yr Uned fersiwn arall ohono yn 2012, gan ddefnyddio llwyfan chwilio Cysefin a Hebog. Yr un yw’r testunau yn y fersiwn gwreiddiol ac yn y fersiwn sy’n defnyddio Cysefin a Hebog, dim ond y dull o ddangos a chwilio’r data sydd wedi newid. Mae’r fersiwn sy’n defnyddio Cysefin a Hebog i’w gweld ar y wefan y Porth Corpora Cenedlaethol.

CRYNODEB BYR

Mae hwn yn ddadansoddiad amlder geiriau o 1,079,032 o eiriau o ryddiaith Gymraeg ysgrifenedig, a seiliwyd ar 500 o samplau o tua 2000 o eiriau yr un. Fe’u detholwyd o ystod gynrychioliadol o destunau rhyddiaith Gymraeg gyfoes (o 1970 ymlaen yn bennaf). Y nod oedd cynnig rhywbeth cyffelyb i ddadansoddiad Kucera a Francis o Saesneg Americanaidd, a’r corpws LOB o Saesneg Prydeinig. Y disgwyl oedd y byddai corpws a ddadansoddwyd fel hyn yn cynnig offer ymchwil ar gyfer nifer o ddisgyblaethau academaidd:

 • seicoleg a seicoieithyddiaeth
 • plant yn caffael ail iaith
 • ieitheg gyffredinol
 • ieitheg y Gymraeg Cyfoes, gan gynnwys dadansoddi
  llenyddol.

Roedd y sampl yn cynnwys:

 • deunyddiau o feysydd nofelau a straeon byrion
 • ysgrifennu crefyddol
 • llenyddiaeth plant (ffeithiol a dychmygol)
 • deunyddiau ym meysydd addysg, gwyddoniaeth, busnes, gweithgareddau hamdden, etc.
 • darlithoedd cyhoeddus
 • papurau newydd a chylchgronau – cenedlaethol a lleol
 • atgofion
 • ysgrifennu academaidd
 • deunyddiau gweinyddu cyffredinol (yn llythyrau,
  adroddiadau,

Dadansoddwyd y corpws i gynhyrchu cyfrifon amlder geiriau yn eu ffurf grai yn ogystal â chyfrifon o lemata lle mae pob arwydd wedi ei ddad-dreiglo a’i dagio yn ôl ei wreiddyn. Rhydd y dadansoddiad yma hefyd wybodaeth sylfaenol am amlder y gwahanol ddosbarthiadau geiriol, ffurfdroadau, treigliadau a nodweddion gramadegol eraill.

Dylai unrhyw erthyglau a seiliwyd ar ddefnydd y gronfa ddata ddyfynnu:

Cronfa Electroneg o Gymraeg (CEG): A 1 million word
lexical database and frequency count for Welsh
. [On-line]


CEFNDIR

Cafodd y project ei ariannu yn ystod y flwyddyn academaidd 1993/4 gyda grant o £21K a ddyfarnwyd gan Gyngor Cyllido Addysg Uwch Cymru i Ellis, O’Dochartaigh & Hicks o Uned TG (IT), Adran Gymraeg ac Ysgol Seicoleg, Prifysgol Cymru, Bangor. Fe ddechreuodd yr ymchwilwyr ar y gwaith ym mis Hydref 1993, ac ar ôl cytuno yr ystod samplau gyda’r Athro Gwyn Thomas o’r Adran Gymraeg, aethpwyd ati i gasglu’r ystod gofynnol o destunau. Y bwriad gwreiddiol oedd derbyn y deunyddiau ar ffurf electronig gan gyhoeddwyr Cymraeg a chyrff eraill, er enghraifft awdurdodau lleol, adrannau’r llywodraeth a phapurau bro (papurau newydd sy’n cael eu cynhyrchu’n lleol). Fodd bynnag, canfuwyd yn fuan ei bod hi’n amhosib casglu’r ehangder deunyddiau angenrheidiol ar ffurf electronig. Roedd hyn yn bennaf oherwydd nad oedd cyhoeddwyr Cymraeg ar y pryd yn cadw copïau archif cyfrifiadurol o lyfrau roedden nhw efallai wedi’u cyhoeddi drwy ddulliau electronig.

O dan yr amgylchiadau yma, ar ôl cael tua 200 o samplau y gellid eu defnyddio gan gyrff amrywiol, penderfynwyd mewnbynnu’r gweddill drwy gael eu teipio a thrwy ddefnyddio sganiwr OCR. Yr ymchwilydd oedd yn gyfrifol am wirio’r copi teipiedig a chywiro’r gwallau yr oedd y meddalwedd OCR yn eu creu. Roedd yn gwneud hyn gyda chymorth y gwiriwr sillafu Cymraeg, CySill, oedd yn cael ei ddatblygu ar y pryd. Fe gafodd costau ychwanegol yma eu hysgwyddo gan Uned TG Gymraeg, Bangor.

Pan ddeuai’r deunydd i law yn uniongyrchol gan gyhoeddwyr neu gan awduron unigol, gofynnwyd am ganiatâd i gynnwys y data yn nadansoddiad y project. Roedd hyn gyda’r ddealltwriaeth y byddai cais ffurfiol yn cael ei wneud i ddeiliaid yr hawlfraint pe dymunid eu rhyddhau i gynulleidfa ehangach rywbryd yn y dyfodol. Mewn achosion lle’r oedd samplau o weithiau cyhoeddedig yn cael eu cymryd naill ai trwy deipio neu drwy OCR, ni ofynnwyd hyd yma am ganiatâd ffurfiol i gael eu defnyddio. Y rheswm am hyn yw ein bod ni’n tybio bod modd ystyried y samplau o 2000 o eiriau yn y rhan fwyaf o achosion fel “delio teg” at ddibenion academaidd o dan y Deddfau Hawlfraint. Fe fyddai unrhyw ddefnydd cyhoeddus o’r deunyddiau yma’n golygu gofyn am ganiatâd ffurfiol deiliaid yr hawlfreintiau.

Penderfynwyd defnyddio’r meddalwedd dadansoddi oedd wedi cael ei ddatblygu ar gyfer y gwiriwr sillafu’r Gymraeg. Roedd y gwaith yma, ar gyfer Bwrdd yr Iaith Gymraeg, yn mynd ymlaen ar y pryd yn yr Ysgol Seicoleg. Ar ôl ei ddiwygio, roedd y gwiriwr sillafu’n cynnwys set o algorithmau lemataidd ar gyfer delio â’r iaith yn gyfrifiadurol a theimlid y byddai modd eu cymhwyso efallai ar gyfer lemateiddio samplau testunau CEG. Gallai wedyn brosesu a dadansoddi’r testunau mewn ffordd ryngweithiol. Gofynnai hyn am y gallu i gyflwyno’r testun gwreiddiol ar sgrîn i’w archwilio gan ymchwilydd a chynnig bocsys deialog rhyngweithiol i ddatrys dwy broblem sylfaenol sef ymddangosiad geiriau neu eirffurfiau oedd ddim yn bod yng ngeiriadur y gwiriwr sillafu a homograffau. Daethpwyd dros yr ail anhawster drwy drefnu i’r meddalwedd adnabod lema naill ai drwy ddileu terfyniad neilltuol a/neu drwy ddad-dreiglo gair a pharhau i gyfnewid terfyniadau a threigladau cychwynnol posib (mewn cyfuniad â lemata eraill) i chwilio am homograffau posib. Cyflwynid pob ffurf bosib ar y gair i’r ymchwilydd ar y sgrîn, gyda’r testun gwreiddiol yn weladwy, i hyrwyddo’r dewis. Roedd ymddangosiad gair neu eirffurf dieithr hefyd yn cynhyrchu bocs deialog a rôi gyfle i’r ymchwilydd ychwanegu geiriau o’r fath at eiriadur defnyddwyr yn ogystal â rhoi cyfle iddo eu hymgorffori yn y ‘ffeiliau wedi’u tagio’ a gynhyrchwyd o bob sampl o destun.

Fe weithiodd y prif ymchwilydd ar 350 o’r 500 sampl, a chafodd ymchwilydd rhan-amser ei gyflogi, drwy’r Uned TG Gymraeg, i ddadansoddi 150 sampl. Cymerid tua awr ar gyfartaledd i ddadansoddi pob un yn ei dro. Roedd yn nes at ddwy awr pan roedd angen ailddarllen a chywiro testun teipiedig neu destun a sganiwyd gan ddefnyddio OCR.


 

FFORMATIAU FFEILIAU A CHONFENSIYNAU CODIO NODAU

Mae’r holl ffeiliau yn ffeiliau Windows gyda <CR><LF> yn cael eu defnyddio i wahanu llinellau.

 


DISGRIFIAD O’R FFEILIAU TESTUN

Ceir manylion y 500 sampl o destun yn y ffeiliau sy’n dilyn. Ynddynt, rhestrir rhif y ffeil, categori’r testun, y teitl, yr awdur a’r dyddiad.

Mae modd mewnlwytho’r data disgrifiadol yn y fformatiau sy’n dilyn:

Defnyddiwyd y codau categorïol canlynol wrth ymdrin â’r testun::

 

Rh Ff
Gwasg – Gwyddonol G Gw Press – Scientific
Gwasg – Adroddiad G A Press – Report
Gwasg – Golygyddol G G Press – Editorial
Gwasg – Adolygiad G Ad Press – Review
Gwasg – Llythyrau G Ll Press – Letters
Plant – Ffeithiol P Ff Factual – Children
Ysgrythurol Y Scriptural
Bro a Bywyd Gwerin B Community Life
Gweinyddol – Adroddiad Gw Ad Administrative – Report
Gweinyddol – Llythyrau Gw Ll Administrative – Letters
Gweinyddol – Cofnodion/cytundebau Gw C Administrative – Minutes/contracts
Academaidd A Academic
Hunangofiant / Cofiant/ Dyddiaduron / Atgofion H Biography/ Diaries/Memories
Sgyrsiau/pigion S Discussions/ Highlights
Medrau a Diddordebau M Skills and Interests
Rhyddiaith Ddychmygol Rh Dd Fiction
Nofelau N Novels
Straeon Byrion SB Short Stories
Plant – Nofel PN Children’s Novel
Plant – Straeon PS Children’s Stories
Dyddiadur Dychmygol D Fictitious Diaries
Ysgrifau YS Articles/ Essays

 


Y FFEILIAU DATA – crai ac wedi eu tagio

 

Y 500 sampl destunol gwreiddiol o tua 2000 o eiriau yr un:

 

Lema [tab] Gair craidd [tab]Rhan Ymadrodd [ [tab] Treiglad – [os yw’n bod]] [tab] Llinell Rhif

Yn dilyn ceir enghraifft o frawddeg o un o destunau’r sampl:

a a part [74.2.1]
bod:3 ydi vbf [74.2.2]
hynny hynny DemPron [74.2.3]
‘n ‘n vbadj [74.2.4]
golygu golygu vb [74.2.5]
bod fod vb meddal [74.2.6]
y y DefArt [74.2.7]
rhai rhai pron [74.2.8]
dagreuol dagreuol adj [74.2.9]
yn yn prep [74.2.10]
ein ein pron [74.2.11]
plith plith nm [74.2.12]
yn yn YnPred [74.2.13]
iach iachach CompAdj [74.2.14]
na na conj [74.2.15]
‘r ‘r DefArt [74.2.16]
rhai rhai pron [74.2.17]
sych sych adj [74.2.18]
? ? punct [74.2.19]

Yr ydym o’r farn bod y corpws testun hwn yn ddefnyddiol ar gyfer:

 • dadansoddi patrymau brawddegol rhyddiaith Gymraeg
 • dadansoddi cyd-ddigwyddiadau o ran lemata unigol a rhannau ymadrodd gramadegol o fewn testunau
 • dadansoddiadau ieithyddol pellach gan ymchwilwyr
  arbenigol ym maes cystrawen y Gymraeg a chaffael iaith plant.

Ond, bydd yn rhaid i ymchwilwyr ystyried rhai cyfyngiadau a fu ar ansawdd y data, yn benodol – cywirdeb rhai o’r tagiau lema a ddifethwyd gan homograffi geirffurfiau. Disgrifir y cyfyngiadau hyn yn yr adran sy’n dilyn.

 


ANSAWDD Y DATA

Credwn fod cywirdeb y geirffurfiau crai yn y gronfa ddata a’u cyfrifon yn weddol uchel. Bydd pa wallau bynnag (o ran sillafu neu deipio) oedd yna yn y samplau gwreiddiol i’w gweld hefyd yn y corpws. Diau i ni hefyd gyflwyno ambell wall ychwanegol a methu canfod rhai gwallau wrth fewnbynnu’r deunydd. Ond gwnaed pob ymdrech i gadw’r nifer yn isel.

Mae ansawdd y tagio’n fater gwahanol eto. Roedd yr anawsterau sy’n dilyn yn ein llesteirio:
problemau cyfraddau homograffi uchel, lemateiddiwr cydweddu patrymluniau cyfyng ei reolau,
a’r angen am ddaddansoddiad gan ymchwilydd medrus.

Cyfunent i greu nifer nid ansylweddol o wallau tagio. Mae dadansoddiad rhagarweiniol o 5% o’r corpws yn dangos bod yna gyfradd gwallau o 4% + /- 3% ond ni ddosbarthwyd y gwallau tagio hyn yn gyfartal o gwmpas y gronfa ddata. Er enghraifft, mae gwallau mewn tagio yn, bod/fod, ac a, sef y geiriau sy’n ymddangos amlaf, yn llawer mwy cyffredin na gwallau ymhlith geiriau dosbarth agored. Gan hynny, tra bod y gyfradd gwallau gyffredinol efallai’n 4%, mae’r gyfradd gwallau categorïol lawer yn llai.

Nid oes gennym yr adnoddau i gywiro’r cam-godiadau yma. Yn ogystal â nodi’r gwallau ar allbrint o’r ffeiliau allbwn, byddai angen i gywiriadau gael eu hysgrifennu’n ôl yn y ffeiliau. Amcangyfrifir y byddai cywiro’r set gyflawn yn fanwl yn cymryd tua dwy flynedd. Ar ôl ceisio sicrhau’r adnoddau i wneud hynny, ac aros yn rhy hir, penderfynwyd rhyddhau’r gronfa ddata fel y mae hi am fod hynny’n well na dim.

Serch hynny, dylai ymchwilwyr nodi’r cyfyngiadau yn ansawdd y data, yn enwedig felly cywirdeb rhai o’r tagiau lema.

Credwn bod ein cyfrif o’r geirffurfiau crai yn gywir iawn.

Mae Cyfrifon y Lema gyda’r dadansoddiad o ffurfdroadau a threigladau yn gywir tua 96% o’r amser gyda mwyafrif y problemau’n ymwneud â geiriau’r dosbarth caeëdig, aml eu defnydd.


CANLYNIADAU’R PROSESU

 CYFRIFON GEIRFFURFIAU CRAI

Seiliwyd y cyfrifon geiriau ar yr union eirffurfiau sy’n digwydd. Mae’r geiriau yma’n cynnwys:

 • sillafiadau sy’n cynrychioli ffurfiau tafodieithol
 • sillafiadau anffurfiol o ffurfiau Cymraeg (gan amlaf yn dilyn argymhellion Cymraeg Byw, er nad yw’n safon sy’n cael ei defnyddio’n gyffredinol ar gyfer ysgrifennu anffurfiol)
 • geiriau tramor (yn neilltuol o’r Saesneg)
 • geiriau Cymraeg wedi’u sillafu’n anghywir (hynny yw
  cambrintiadau yn y testunau gwreiddiol).

Cyfanswm y geirffurfiau yn y corpws yw 1,079,032.

Cyfanswm y mathau o eirffurfiau unigol yw 37,195.

Y geirffurfiau crai amlaf eu deunydd yw:

 

55588 yn . 3821 cael
45945 y . 3754 yw
33327 i . 3546 wrth
33231 a . 3545 ni
32573 ‘r . 3463 hyn
26927 o . 3023 na
15888 ar . 2870 o+l
14990 ei . 2721 hynny
14845 ‘n . 2646 fe
14523 yr . 2613 er
11785 ac . 2594 neu
9922 oedd . 2585 nid
9338 bod . 2542 at
9056 mae . 2511 sy
7751 am . 2417 ‘w
7093 wedi . 2401 hi
6118 ond . 2360 dim
5568 un . 2278 mynd
5415 ‘i . 2240 byddai
5294 eu . 2160 gyda
4991 gan . 2137 yng
4988 fel . 2110 iawn
4578 mewn . 2066 pob
4149 a+ . 2065 lle
4142 roedd . 2027 pan

 

Ar eithaf arall yr ystod amlder, mae yna gynffon hir iawn o ffurfiau sy’n ymddangos unwaith, gyda 44% o’r cyfanswm o fewn y grw^p yma. Rhyngddynt, mae nifer y geiriau sy’n ymddangos unwaith, ddwywaith neu deirgwaith yn 64% o gyfanswm y geiriau (37,195). Fel y gellid disgwyl, mae nifer fawr o r geiriau anaml yma:
yn fenthyciadau o dramor, yn fenthyciadau o dramor, yn gamsillafiadau, yn ffurfiau tafodieithol, yn ffurfiau eraill ar sillafiadau amrywiol, ac yn rhifau.
Ran amlaf, mae’r rhaglen ddadansoddi’n gwahaniaethu rhwng y categorïau yma (camsillafiadau, geiriau tramor, sillafiadau anffurfiol), ond byddai angen gwirio’r cofnodion ymhellach i fod yn fanwl gywir.

 

Geiriau sy’n ymddangos unwaith – 16,316 :  44% o’r geiriau unigol
 Geiriau sy’n ymddangos ddwywaith – 5,013 :  13% o’r geiriau unigol
 Geiriau sy’n ymddangos deirgwaith – 2,644 :    7% o’r geiriau unigol

 


 

 CYFRIFON LEMA – gyda dadansoddiadau o ffurfdroadau a threigladau

Defnyddiwyd y meddalwedd lemateiddio i ddad-dreiglo a dad-ffurfdroi geirffurfiau er mwyn eu holrhain yn ôl i’w lema. Ceir enghreifftiau eglurhaol o’r dadansoddiad hwn yn y tabl isod:

 

ceg 118 ceg n 118 ceg 109 nf ceg 22 nf
cheg 21 nf llaes
geg 56 nf meddal
ngheg 10 nf trwynol
cegau 9 npl cegau 9 npl
rhodio 16 rhodio vb 16 rhodia 2 vbf rhodia 1 vbf :3
rodia 1 vbf :3 meddal
rhodiai 1 vbf rodiai 1 vbf :10 meddal
rhodio 12 vb rhodio 7 vb
rodio 5 vb meddal
rhodiwn 1 vbf rhodiwn 1 vbf :4.1

 

Ymddengys y lema ceg 118 o weithiau – fel enw’n unig. Digwydd fel enw unigol benywaidd (ceg) 109 o weithiau ac fel yr enw lluosog (cegau) ar 9 achlysur. Fe’i ceir fel ffurf unigol (heb ei dreiglo) 22 o weithiau, gyda threiglad llaes 21 o weithiau , gyda threiglad meddal 56 o weithiau , a 10 gwaith gyda threiglad trwynol.

Ymddangosodd y lema rhodio 16 o weithiau, bob tro fel berf. Digwydd ddwywaith yn y trydydd person unigol presennol (rhodia) (unwaith mewn ffurf heb ei dreiglo ac unwaith gyda threiglad meddal). Digwydd unwaith fel y ffurf dreigledig, trydydd person unigol amherffaith (rodia), 12 gwaith fel y berfenw rhodio (7 gwaith heb ei dreiglo a 5 gwaith wedi ei dreiglo’n feddal), ac unwaith yn y person cyntaf lluosog presennol (rhodiwn). Ceir llawer o ffurfiau ar y ferf yn y Gymraeg. Gwelir rhestr gyflawn o godau ffurfiau’r ferf yn yr adran sy’n dilyn.
CODAU FFURFIAU’R FERF

Ceir tabl o godau ffurfiau’r ferf isod:

 

1 af amser presennol person cyntaf unigol
2 i amser presennol ail berson unigol
3 a amser presennol trydydd person unigol
4 wn amser presennol person cyntaf lluosog
5 wch amser presennol ail berson lluosog
6 ant amser presennol trydydd person lluosog
7 ir amser presennol amhersonol
8 it amser amherffaith person cyntaf unigol
9 et amser amherffaith ail berson unigol
10 ai amser amherffaith trydydd person unigol
11 em amser amherffaith person cyntaf lluosog
12 ech amser amherffaith ail berson lluosog
13 ent amser amherffaith trydydd person lluosog
14 id amser amherffaith amhersonol
15 ais amser gorffennol person cyntaf unigol
16 aist amser gorffennol ail berson unigol
17 odd amser gorffennol trydydd person unigol
18 asom amser gorffennol person cyntaf lluosog
19 asoch amser gorffennol ail berson lluosog
20 asant amser gorffennol trydydd person lluosog
21 wyd amser gorffennol amhersonol
22 aswn gorberffaith person cyntaf unigol
23 asit gorberffaith ail berson unigol
24 aset gorberffaith ail berson unigol
25 asai gorberffaith ail berson unigol
26 asem gorberffaith person cyntaf lluosog
27 asech gorberffaith ail berson lluosog
28 asent gorberffaith trydydd person lluosog
29 asid gorberffaith amhersonol
30 ed amhersonol gorchmynnol
31 wyf dibynnol person cyntaf unigol
32 ych dibynnol ail berson unigol
33 o dibynnol trydydd person unigol
34 om dibynnol person cyntaf lluosog
35 och dibynnol ail berson lluosog
36 ont dibynnol trydydd person lluosog
37 er dibynnol ail berson unigol
38 es amser gorffennol person cyntaf unigol
39 est amser gorffennol ail berson unigol
40 ith Anffurfiol trydydd person unigol
41 iff Anffurfiol Dyfodol trydydd person unigol
42 on Anffurfiol Gorffennol trydydd person lluosog
43 an Anffurfiol Dyfodol trydydd person lluosog

 

 

Mae’r ffeil, Lemma Counts with Analysis, wedi’i gwahanu gan dabiau a gellir ei mewnforio i Excel. Yno mae’n hawdd ei thrin i gael amrywiaeth eang o ddadansoddiadau. Cynhyrchodd un enghraifft, a seiliwyd ar drefniad o dreigliadau cychwynnol y canlyniadau sy’n dilyn:
TREIGLIADAU CYCHWYNNOL

Gall geiriau Cymraeg gymryd un o bedwar math o dreiglad
cychwynnol morffoffonemig. O edrych am amlder cymharol y defnydd a wneir ohonynt
yn y sampl ceir y canlyniadau canlynol:

 

 

Treiglad Meddal 134,349 12.45%
Treiglad Llaes     9,123   0.85%
Treiglad Trwynol     5,667   0.53%
calediad h     1,990   0.19%

 

Llwytho’r Geirffurfiau

Ffeil sip yn cynnwys: (890Kb)

 • Cyfrifon geiriau (amlder) – cyfrifon geirffurfiau crai wedi’u trefnu yn ôl y defnydd a wneir ohonynt. Cychwynnir gyda’r rhai amlaf eu defnydd.
 • Cyfrifon geiriau (alffa). Cyfrifon geirffurfiau crai wedi’u dosbarthu yn nhrefn yr wyddor
 • Cyfrifon Lema gyda Dadansoddiad – cyfrifon Lemata, gyda ffurfiau ffurfdroedig, rhannau ymadrodd a threigladau

DEFNYDDIO’R ADNODD

Cynhyrchwyd y deunyddiau yma gyda grant fechan a roddwyd i gynnal ymchwil academaidd. Mae croeso i chi eu defnyddio at unrhyw ddiben ag eithrio diben masnachol. Cynhyrchwyd y dadansoddiadau yma’n ddidwyll hyd eithaf ein gallu o gofio’r adnoddau cyfyngedig. Fel y nodwyd uchod, fe ddylai unrhyw ddefnyddiwr fod yn ymwybodol o’r gwallau yn y tagio. Ni ellir felly ysgwyddo cyfrifoldeb am unrhyw ganlyniadau andwyol a allai fod yn seiliedig ar y rhain.

Croesawn ymchwil pellach naill ai i ymhelaethu ar neu gywiro’r disgrifiad.

Ellis, N. C., O’Dochartaigh, C., Hicks, W., Morgan, M., & Laporte, N.  (2001). Cronfa Electroneg o Gymraeg (CEG): Cronfa ddata eirfaol, miliwn o eiriau, sy’n cyfrif amlder defnydd geiriau yn y Gymraeg: . [On-line]