Corpws Electronig o’r Gymraeg
Ariannwyd y project gwreiddiol yn ystod 1993/4 gyda grant o £21,000 a ddyfarnwyd gan Gyngor Cyllido Addysgu Uwch Cymru i Ellis, O’Dochartaigh & Hicks o Uned TG, Adran Gymraeg ac Ysgol Seicoleg Prifysgol Cymru Bangor.
Yr oedd yn cynnwys 1,079,032 o eiriau o ryddiaith Gymraeg ysgrifenedig, yn bennaf o 1970 ymlaen, wedi’i seilio ar 500 o samplau tua 2,000 o eiriau yr un. Tagiwyd a dadansoddwyd y data ar gyfer gwahanol astudiaethau ieithyddol, ac mae’r ffeiliau gwreiddiol yn cael eu cynnal bellach gan staff yr Uned Technolegau Iaith.
Oherwydd y galw am ryngwyneb chwiliadwy, cyfeillgar i’r corpws, datblygodd yr Uned fersiwn arall ohono yn 2012, gan ddefnyddio llwyfan chwilio Cysefin a Hebog. Yr un yw’r testunau yn y fersiwn gwreiddiol ac yn y fersiwn sy’n defnyddio Cysefin a Hebog, dim ond y dull o ddangos a chwilio’r data sydd wedi newid. Mae’r fersiwn sy’n defnyddio Cysefin a Hebog i’w gweld ar y wefan y Porth Corpora Cenedlaethol.
CRYNODEB BYR
Mae hwn yn ddadansoddiad amlder geiriau o 1,079,032 o eiriau o ryddiaith Gymraeg ysgrifenedig, a seiliwyd ar 500 o samplau o tua 2000 o eiriau yr un. Fe’u detholwyd o ystod gynrychioliadol o destunau rhyddiaith Gymraeg gyfoes (o 1970 ymlaen yn bennaf). Y nod oedd cynnig rhywbeth cyffelyb i ddadansoddiad Kucera a Francis o Saesneg Americanaidd, a’r corpws LOB o Saesneg Prydeinig. Y disgwyl oedd y byddai corpws a ddadansoddwyd fel hyn yn cynnig offer ymchwil ar gyfer nifer o ddisgyblaethau academaidd:
- seicoleg a seicoieithyddiaeth
- plant yn caffael ail iaith
- ieitheg gyffredinol
- ieitheg y Gymraeg Cyfoes, gan gynnwys dadansoddi
llenyddol.
Roedd y sampl yn cynnwys:
- deunyddiau o feysydd nofelau a straeon byrion
- ysgrifennu crefyddol
- llenyddiaeth plant (ffeithiol a dychmygol)
- deunyddiau ym meysydd addysg, gwyddoniaeth, busnes, gweithgareddau hamdden, etc.
- darlithoedd cyhoeddus
- papurau newydd a chylchgronau – cenedlaethol a lleol
- atgofion
- ysgrifennu academaidd
- deunyddiau gweinyddu cyffredinol (yn llythyrau,
adroddiadau,
Dadansoddwyd y corpws i gynhyrchu cyfrifon amlder geiriau yn eu ffurf grai yn ogystal â chyfrifon o lemata lle mae pob arwydd wedi ei ddad-dreiglo a’i dagio yn ôl ei wreiddyn. Rhydd y dadansoddiad yma hefyd wybodaeth sylfaenol am amlder y gwahanol ddosbarthiadau geiriol, ffurfdroadau, treigliadau a nodweddion gramadegol eraill.
Dylai unrhyw erthyglau a seiliwyd ar ddefnydd y gronfa ddata ddyfynnu:
Cronfa Electroneg o Gymraeg (CEG): A 1 million word
lexical database and frequency count for Welsh. [On-line]
CEFNDIR
Cafodd y project ei ariannu yn ystod y flwyddyn academaidd 1993/4 gyda grant o £21K a ddyfarnwyd gan Gyngor Cyllido Addysg Uwch Cymru i Ellis, O’Dochartaigh & Hicks o Uned TG (IT), Adran Gymraeg ac Ysgol Seicoleg, Prifysgol Cymru, Bangor. Fe ddechreuodd yr ymchwilwyr ar y gwaith ym mis Hydref 1993, ac ar ôl cytuno yr ystod samplau gyda’r Athro Gwyn Thomas o’r Adran Gymraeg, aethpwyd ati i gasglu’r ystod gofynnol o destunau. Y bwriad gwreiddiol oedd derbyn y deunyddiau ar ffurf electronig gan gyhoeddwyr Cymraeg a chyrff eraill, er enghraifft awdurdodau lleol, adrannau’r llywodraeth a phapurau bro (papurau newydd sy’n cael eu cynhyrchu’n lleol). Fodd bynnag, canfuwyd yn fuan ei bod hi’n amhosib casglu’r ehangder deunyddiau angenrheidiol ar ffurf electronig. Roedd hyn yn bennaf oherwydd nad oedd cyhoeddwyr Cymraeg ar y pryd yn cadw copïau archif cyfrifiadurol o lyfrau roedden nhw efallai wedi’u cyhoeddi drwy ddulliau electronig.
O dan yr amgylchiadau yma, ar ôl cael tua 200 o samplau y gellid eu defnyddio gan gyrff amrywiol, penderfynwyd mewnbynnu’r gweddill drwy gael eu teipio a thrwy ddefnyddio sganiwr OCR. Yr ymchwilydd oedd yn gyfrifol am wirio’r copi teipiedig a chywiro’r gwallau yr oedd y meddalwedd OCR yn eu creu. Roedd yn gwneud hyn gyda chymorth y gwiriwr sillafu Cymraeg, CySill, oedd yn cael ei ddatblygu ar y pryd. Fe gafodd costau ychwanegol yma eu hysgwyddo gan Uned TG Gymraeg, Bangor.
Pan ddeuai’r deunydd i law yn uniongyrchol gan gyhoeddwyr neu gan awduron unigol, gofynnwyd am ganiatâd i gynnwys y data yn nadansoddiad y project. Roedd hyn gyda’r ddealltwriaeth y byddai cais ffurfiol yn cael ei wneud i ddeiliaid yr hawlfraint pe dymunid eu rhyddhau i gynulleidfa ehangach rywbryd yn y dyfodol. Mewn achosion lle’r oedd samplau o weithiau cyhoeddedig yn cael eu cymryd naill ai trwy deipio neu drwy OCR, ni ofynnwyd hyd yma am ganiatâd ffurfiol i gael eu defnyddio. Y rheswm am hyn yw ein bod ni’n tybio bod modd ystyried y samplau o 2000 o eiriau yn y rhan fwyaf o achosion fel “delio teg” at ddibenion academaidd o dan y Deddfau Hawlfraint. Fe fyddai unrhyw ddefnydd cyhoeddus o’r deunyddiau yma’n golygu gofyn am ganiatâd ffurfiol deiliaid yr hawlfreintiau.
Penderfynwyd defnyddio’r meddalwedd dadansoddi oedd wedi cael ei ddatblygu ar gyfer y gwiriwr sillafu’r Gymraeg. Roedd y gwaith yma, ar gyfer Bwrdd yr Iaith Gymraeg, yn mynd ymlaen ar y pryd yn yr Ysgol Seicoleg. Ar ôl ei ddiwygio, roedd y gwiriwr sillafu’n cynnwys set o algorithmau lemataidd ar gyfer delio â’r iaith yn gyfrifiadurol a theimlid y byddai modd eu cymhwyso efallai ar gyfer lemateiddio samplau testunau CEG. Gallai wedyn brosesu a dadansoddi’r testunau mewn ffordd ryngweithiol. Gofynnai hyn am y gallu i gyflwyno’r testun gwreiddiol ar sgrîn i’w archwilio gan ymchwilydd a chynnig bocsys deialog rhyngweithiol i ddatrys dwy broblem sylfaenol sef ymddangosiad geiriau neu eirffurfiau oedd ddim yn bod yng ngeiriadur y gwiriwr sillafu a homograffau. Daethpwyd dros yr ail anhawster drwy drefnu i’r meddalwedd adnabod lema naill ai drwy ddileu terfyniad neilltuol a/neu drwy ddad-dreiglo gair a pharhau i gyfnewid terfyniadau a threigladau cychwynnol posib (mewn cyfuniad â lemata eraill) i chwilio am homograffau posib. Cyflwynid pob ffurf bosib ar y gair i’r ymchwilydd ar y sgrîn, gyda’r testun gwreiddiol yn weladwy, i hyrwyddo’r dewis. Roedd ymddangosiad gair neu eirffurf dieithr hefyd yn cynhyrchu bocs deialog a rôi gyfle i’r ymchwilydd ychwanegu geiriau o’r fath at eiriadur defnyddwyr yn ogystal â rhoi cyfle iddo eu hymgorffori yn y ‘ffeiliau wedi’u tagio’ a gynhyrchwyd o bob sampl o destun.
Fe weithiodd y prif ymchwilydd ar 350 o’r 500 sampl, a chafodd ymchwilydd rhan-amser ei gyflogi, drwy’r Uned TG Gymraeg, i ddadansoddi 150 sampl. Cymerid tua awr ar gyfartaledd i ddadansoddi pob un yn ei dro. Roedd yn nes at ddwy awr pan roedd angen ailddarllen a chywiro testun teipiedig neu destun a sganiwyd gan ddefnyddio OCR.
FFORMATIAU FFEILIAU A CHONFENSIYNAU CODIO NODAU
Mae’r holl ffeiliau yn ffeiliau Windows gyda <CR><LF> yn cael eu defnyddio i wahanu llinellau.
DISGRIFIAD O’R FFEILIAU TESTUN
Ceir manylion y 500 sampl o destun yn y ffeiliau sy’n dilyn. Ynddynt, rhestrir rhif y ffeil, categori’r testun, y teitl, yr awdur a’r dyddiad.
Mae modd mewnlwytho’r data disgrifiadol yn y fformatiau sy’n dilyn:
Defnyddiwyd y codau categorïol canlynol wrth ymdrin â’r testun::
Gwasg – Gwyddonol | G Gw | Press – Scientific |
Gwasg – Adroddiad | G A | Press – Report |
Gwasg – Golygyddol | G G | Press – Editorial |
Gwasg – Adolygiad | G Ad | Press – Review |
Gwasg – Llythyrau | G Ll | Press – Letters |
Plant – Ffeithiol | P Ff | Factual – Children |
Ysgrythurol | Y | Scriptural |
Bro a Bywyd Gwerin | B | Community Life |
Gweinyddol – Adroddiad | Gw Ad | Administrative – Report |
Gweinyddol – Llythyrau | Gw Ll | Administrative – Letters |
Gweinyddol – Cofnodion/cytundebau | Gw C | Administrative – Minutes/contracts |
Academaidd | A | Academic |
Hunangofiant / Cofiant/ Dyddiaduron / Atgofion | H | Biography/ Diaries/Memories |
Sgyrsiau/pigion | S | Discussions/ Highlights |
Medrau a Diddordebau | M | Skills and Interests |
Rhyddiaith Ddychmygol | Rh Dd | Fiction |
Nofelau | N | Novels |
Straeon Byrion | SB | Short Stories |
Plant – Nofel | PN | Children’s Novel |
Plant – Straeon | PS | Children’s Stories |
Dyddiadur Dychmygol | D | Fictitious Diaries |
Ysgrifau | YS | Articles/ Essays |
Y FFEILIAU DATA – crai ac wedi eu tagio
Y 500 sampl destunol gwreiddiol o tua 2000 o eiriau yr un:
- Y ffeiliau ASCII gwreiddiol (wedi’u sipio) (2.1Mb)
Lema [tab] Gair craidd [tab]Rhan Ymadrodd [ [tab] Treiglad – [os yw’n bod]] [tab] Llinell Rhif
Yn dilyn ceir enghraifft o frawddeg o un o destunau’r sampl:
a | a | part | [74.2.1] | |
bod:3 | ydi | vbf | [74.2.2] | |
hynny | hynny | DemPron | [74.2.3] | |
‘n | ‘n | vbadj | [74.2.4] | |
golygu | golygu | vb | [74.2.5] | |
bod | fod | vb | meddal | [74.2.6] |
y | y | DefArt | [74.2.7] | |
rhai | rhai | pron | [74.2.8] | |
dagreuol | dagreuol | adj | [74.2.9] | |
yn | yn | prep | [74.2.10] | |
ein | ein | pron | [74.2.11] | |
plith | plith | nm | [74.2.12] | |
yn | yn | YnPred | [74.2.13] | |
iach | iachach | CompAdj | [74.2.14] | |
na | na | conj | [74.2.15] | |
‘r | ‘r | DefArt | [74.2.16] | |
rhai | rhai | pron | [74.2.17] | |
sych | sych | adj | [74.2.18] | |
? | ? | punct | [74.2.19] |
Yr ydym o’r farn bod y corpws testun hwn yn ddefnyddiol ar gyfer:
- dadansoddi patrymau brawddegol rhyddiaith Gymraeg
- dadansoddi cyd-ddigwyddiadau o ran lemata unigol a rhannau ymadrodd gramadegol o fewn testunau
- dadansoddiadau ieithyddol pellach gan ymchwilwyr
arbenigol ym maes cystrawen y Gymraeg a chaffael iaith plant.
Ond, bydd yn rhaid i ymchwilwyr ystyried rhai cyfyngiadau a fu ar ansawdd y data, yn benodol – cywirdeb rhai o’r tagiau lema a ddifethwyd gan homograffi geirffurfiau. Disgrifir y cyfyngiadau hyn yn yr adran sy’n dilyn.
- Pob Ffeil Wedi’u tagio (a’u sipio) [gyda’r meysydd heb eu cyfyngu gan dabiau] – 8 Mb
ANSAWDD Y DATA
Credwn fod cywirdeb y geirffurfiau crai yn y gronfa ddata a’u cyfrifon yn weddol uchel. Bydd pa wallau bynnag (o ran sillafu neu deipio) oedd yna yn y samplau gwreiddiol i’w gweld hefyd yn y corpws. Diau i ni hefyd gyflwyno ambell wall ychwanegol a methu canfod rhai gwallau wrth fewnbynnu’r deunydd. Ond gwnaed pob ymdrech i gadw’r nifer yn isel.
Mae ansawdd y tagio’n fater gwahanol eto. Roedd yr anawsterau sy’n dilyn yn ein llesteirio:
problemau cyfraddau homograffi uchel, lemateiddiwr cydweddu patrymluniau cyfyng ei reolau,
a’r angen am ddaddansoddiad gan ymchwilydd medrus.
Cyfunent i greu nifer nid ansylweddol o wallau tagio. Mae dadansoddiad rhagarweiniol o 5% o’r corpws yn dangos bod yna gyfradd gwallau o 4% + /- 3% ond ni ddosbarthwyd y gwallau tagio hyn yn gyfartal o gwmpas y gronfa ddata. Er enghraifft, mae gwallau mewn tagio yn, bod/fod, ac a, sef y geiriau sy’n ymddangos amlaf, yn llawer mwy cyffredin na gwallau ymhlith geiriau dosbarth agored. Gan hynny, tra bod y gyfradd gwallau gyffredinol efallai’n 4%, mae’r gyfradd gwallau categorïol lawer yn llai.
Nid oes gennym yr adnoddau i gywiro’r cam-godiadau yma. Yn ogystal â nodi’r gwallau ar allbrint o’r ffeiliau allbwn, byddai angen i gywiriadau gael eu hysgrifennu’n ôl yn y ffeiliau. Amcangyfrifir y byddai cywiro’r set gyflawn yn fanwl yn cymryd tua dwy flynedd. Ar ôl ceisio sicrhau’r adnoddau i wneud hynny, ac aros yn rhy hir, penderfynwyd rhyddhau’r gronfa ddata fel y mae hi am fod hynny’n well na dim.
Serch hynny, dylai ymchwilwyr nodi’r cyfyngiadau yn ansawdd y data, yn enwedig felly cywirdeb rhai o’r tagiau lema.
Credwn bod ein cyfrif o’r geirffurfiau crai yn gywir iawn.
Mae Cyfrifon y Lema gyda’r dadansoddiad o ffurfdroadau a threigladau yn gywir tua 96% o’r amser gyda mwyafrif y problemau’n ymwneud â geiriau’r dosbarth caeëdig, aml eu defnydd.
CANLYNIADAU’R PROSESU
CYFRIFON GEIRFFURFIAU CRAI
Seiliwyd y cyfrifon geiriau ar yr union eirffurfiau sy’n digwydd. Mae’r geiriau yma’n cynnwys:
- sillafiadau sy’n cynrychioli ffurfiau tafodieithol
- sillafiadau anffurfiol o ffurfiau Cymraeg (gan amlaf yn dilyn argymhellion Cymraeg Byw, er nad yw’n safon sy’n cael ei defnyddio’n gyffredinol ar gyfer ysgrifennu anffurfiol)
- geiriau tramor (yn neilltuol o’r Saesneg)
- geiriau Cymraeg wedi’u sillafu’n anghywir (hynny yw
cambrintiadau yn y testunau gwreiddiol).
Cyfanswm y geirffurfiau yn y corpws yw 1,079,032.
Cyfanswm y mathau o eirffurfiau unigol yw 37,195.
Y geirffurfiau crai amlaf eu deunydd yw:
55588 | yn | . | 3821 | cael |
45945 | y | . | 3754 | yw |
33327 | i | . | 3546 | wrth |
33231 | a | . | 3545 | ni |
32573 | ‘r | . | 3463 | hyn |
26927 | o | . | 3023 | na |
15888 | ar | . | 2870 | o+l |
14990 | ei | . | 2721 | hynny |
14845 | ‘n | . | 2646 | fe |
14523 | yr | . | 2613 | er |
11785 | ac | . | 2594 | neu |
9922 | oedd | . | 2585 | nid |
9338 | bod | . | 2542 | at |
9056 | mae | . | 2511 | sy |
7751 | am | . | 2417 | ‘w |
7093 | wedi | . | 2401 | hi |
6118 | ond | . | 2360 | dim |
5568 | un | . | 2278 | mynd |
5415 | ‘i | . | 2240 | byddai |
5294 | eu | . | 2160 | gyda |
4991 | gan | . | 2137 | yng |
4988 | fel | . | 2110 | iawn |
4578 | mewn | . | 2066 | pob |
4149 | a+ | . | 2065 | lle |
4142 | roedd | . | 2027 | pan |
Ar eithaf arall yr ystod amlder, mae yna gynffon hir iawn o ffurfiau sy’n ymddangos unwaith, gyda 44% o’r cyfanswm o fewn y grw^p yma. Rhyngddynt, mae nifer y geiriau sy’n ymddangos unwaith, ddwywaith neu deirgwaith yn 64% o gyfanswm y geiriau (37,195). Fel y gellid disgwyl, mae nifer fawr o r geiriau anaml yma:
yn fenthyciadau o dramor, yn fenthyciadau o dramor, yn gamsillafiadau, yn ffurfiau tafodieithol, yn ffurfiau eraill ar sillafiadau amrywiol, ac yn rhifau.
Ran amlaf, mae’r rhaglen ddadansoddi’n gwahaniaethu rhwng y categorïau yma (camsillafiadau, geiriau tramor, sillafiadau anffurfiol), ond byddai angen gwirio’r cofnodion ymhellach i fod yn fanwl gywir.
Geiriau sy’n ymddangos unwaith – 16,316 : | 44% o’r geiriau unigol |
Geiriau sy’n ymddangos ddwywaith – 5,013 : | 13% o’r geiriau unigol |
Geiriau sy’n ymddangos deirgwaith – 2,644 : | 7% o’r geiriau unigol |
CYFRIFON LEMA – gyda dadansoddiadau o ffurfdroadau a threigladau
Defnyddiwyd y meddalwedd lemateiddio i ddad-dreiglo a dad-ffurfdroi geirffurfiau er mwyn eu holrhain yn ôl i’w lema. Ceir enghreifftiau eglurhaol o’r dadansoddiad hwn yn y tabl isod:
ceg | 118 | ceg | n | 118 | ceg | 109 | nf | ceg | 22 | nf | |
cheg | 21 | nf | llaes | ||||||||
geg | 56 | nf | meddal | ||||||||
ngheg | 10 | nf | trwynol | ||||||||
cegau | 9 | npl | cegau | 9 | npl | ||||||
rhodio | 16 | rhodio | vb | 16 | rhodia | 2 | vbf | rhodia | 1 | vbf :3 | |
rodia | 1 | vbf :3 | meddal | ||||||||
rhodiai | 1 | vbf | rodiai | 1 | vbf :10 | meddal | |||||
rhodio | 12 | vb | rhodio | 7 | vb | ||||||
rodio | 5 | vb | meddal | ||||||||
rhodiwn | 1 | vbf | rhodiwn | 1 | vbf :4.1 |
Ymddengys y lema ceg 118 o weithiau – fel enw’n unig. Digwydd fel enw unigol benywaidd (ceg) 109 o weithiau ac fel yr enw lluosog (cegau) ar 9 achlysur. Fe’i ceir fel ffurf unigol (heb ei dreiglo) 22 o weithiau, gyda threiglad llaes 21 o weithiau , gyda threiglad meddal 56 o weithiau , a 10 gwaith gyda threiglad trwynol.
Ymddangosodd y lema rhodio 16 o weithiau, bob tro fel berf. Digwydd ddwywaith yn y trydydd person unigol presennol (rhodia) (unwaith mewn ffurf heb ei dreiglo ac unwaith gyda threiglad meddal). Digwydd unwaith fel y ffurf dreigledig, trydydd person unigol amherffaith (rodia), 12 gwaith fel y berfenw rhodio (7 gwaith heb ei dreiglo a 5 gwaith wedi ei dreiglo’n feddal), ac unwaith yn y person cyntaf lluosog presennol (rhodiwn). Ceir llawer o ffurfiau ar y ferf yn y Gymraeg. Gwelir rhestr gyflawn o godau ffurfiau’r ferf yn yr adran sy’n dilyn.
CODAU FFURFIAU’R FERF
Ceir tabl o godau ffurfiau’r ferf isod:
1 | af | amser presennol person cyntaf unigol |
2 | i | amser presennol ail berson unigol |
3 | a | amser presennol trydydd person unigol |
4 | wn | amser presennol person cyntaf lluosog |
5 | wch | amser presennol ail berson lluosog |
6 | ant | amser presennol trydydd person lluosog |
7 | ir | amser presennol amhersonol |
8 | it | amser amherffaith person cyntaf unigol |
9 | et | amser amherffaith ail berson unigol |
10 | ai | amser amherffaith trydydd person unigol |
11 | em | amser amherffaith person cyntaf lluosog |
12 | ech | amser amherffaith ail berson lluosog |
13 | ent | amser amherffaith trydydd person lluosog |
14 | id | amser amherffaith amhersonol |
15 | ais | amser gorffennol person cyntaf unigol |
16 | aist | amser gorffennol ail berson unigol |
17 | odd | amser gorffennol trydydd person unigol |
18 | asom | amser gorffennol person cyntaf lluosog |
19 | asoch | amser gorffennol ail berson lluosog |
20 | asant | amser gorffennol trydydd person lluosog |
21 | wyd | amser gorffennol amhersonol |
22 | aswn | gorberffaith person cyntaf unigol |
23 | asit | gorberffaith ail berson unigol |
24 | aset | gorberffaith ail berson unigol |
25 | asai | gorberffaith ail berson unigol |
26 | asem | gorberffaith person cyntaf lluosog |
27 | asech | gorberffaith ail berson lluosog |
28 | asent | gorberffaith trydydd person lluosog |
29 | asid | gorberffaith amhersonol |
30 | ed | amhersonol gorchmynnol |
31 | wyf | dibynnol person cyntaf unigol |
32 | ych | dibynnol ail berson unigol |
33 | o | dibynnol trydydd person unigol |
34 | om | dibynnol person cyntaf lluosog |
35 | och | dibynnol ail berson lluosog |
36 | ont | dibynnol trydydd person lluosog |
37 | er | dibynnol ail berson unigol |
38 | es | amser gorffennol person cyntaf unigol |
39 | est | amser gorffennol ail berson unigol |
40 | ith | Anffurfiol trydydd person unigol |
41 | iff | Anffurfiol Dyfodol trydydd person unigol |
42 | on | Anffurfiol Gorffennol trydydd person lluosog |
43 | an | Anffurfiol Dyfodol trydydd person lluosog |
Mae’r ffeil, Lemma Counts with Analysis, wedi’i gwahanu gan dabiau a gellir ei mewnforio i Excel. Yno mae’n hawdd ei thrin i gael amrywiaeth eang o ddadansoddiadau. Cynhyrchodd un enghraifft, a seiliwyd ar drefniad o dreigliadau cychwynnol y canlyniadau sy’n dilyn:
TREIGLIADAU CYCHWYNNOL
Gall geiriau Cymraeg gymryd un o bedwar math o dreiglad
cychwynnol morffoffonemig. O edrych am amlder cymharol y defnydd a wneir ohonynt
yn y sampl ceir y canlyniadau canlynol:
Treiglad Meddal | 134,349 | 12.45% |
Treiglad Llaes | 9,123 | 0.85% |
Treiglad Trwynol | 5,667 | 0.53% |
calediad h | 1,990 | 0.19% |
Llwytho’r Geirffurfiau
Ffeil sip yn cynnwys: (890Kb)
- Cyfrifon geiriau (amlder) – cyfrifon geirffurfiau crai wedi’u trefnu yn ôl y defnydd a wneir ohonynt. Cychwynnir gyda’r rhai amlaf eu defnydd.
- Cyfrifon geiriau (alffa). Cyfrifon geirffurfiau crai wedi’u dosbarthu yn nhrefn yr wyddor
- Cyfrifon Lema gyda Dadansoddiad – cyfrifon Lemata, gyda ffurfiau ffurfdroedig, rhannau ymadrodd a threigladau
DEFNYDDIO’R ADNODD
Cynhyrchwyd y deunyddiau yma gyda grant fechan a roddwyd i gynnal ymchwil academaidd. Mae croeso i chi eu defnyddio at unrhyw ddiben ag eithrio diben masnachol. Cynhyrchwyd y dadansoddiadau yma’n ddidwyll hyd eithaf ein gallu o gofio’r adnoddau cyfyngedig. Fel y nodwyd uchod, fe ddylai unrhyw ddefnyddiwr fod yn ymwybodol o’r gwallau yn y tagio. Ni ellir felly ysgwyddo cyfrifoldeb am unrhyw ganlyniadau andwyol a allai fod yn seiliedig ar y rhain.
Croesawn ymchwil pellach naill ai i ymhelaethu ar neu gywiro’r disgrifiad.
Ellis, N. C., O’Dochartaigh, C., Hicks, W., Morgan, M., & Laporte, N. (2001). Cronfa Electroneg o Gymraeg (CEG): Cronfa ddata eirfaol, miliwn o eiriau, sy’n cyfrif amlder defnydd geiriau yn y Gymraeg: . [On-line]