Statistics of Case in UD

home edit page issue tracker

This page pertains to UD version 2.

Treebank Statistics: UD_Czech-PUD: Features: `Case`

This feature is universal. It occurs with 7 different values: Acc, Dat, Gen, Ins, Loc, Nom, Voc.

10488 tokens (56%) have a non-empty value of Case. 5471 types (72%) occur at least once with a non-empty value of Case. 3574 lemmas (67%) occur at least once with a non-empty value of Case. The feature is used with 7 part-of-speech tags: NOUN (4315; 23% instances), ADJ (2025; 11% instances), ADP (1834; 10% instances), PROPN (877; 5% instances), DET (721; 4% instances), PRON (576; 3% instances), NUM (140; 1% instances).

`NOUN`

4315 NOUN tokens (96% of all NOUN tokens) have a non-empty value of Case.

The most frequent other feature values with which NOUN and Case co-occurred: Polarity=Pos (4307; 100%), Number=Sing (3083; 71%), Animacy=EMPTY (2407; 56%).

NOUN tokens may have the following values of Case:

Acc (907; 21% of non-empty Case): místo, den, rok, část, roky, většinu, dluhopisy, lidi, možnost, měsíc
Dat (161; 4% of non-empty Case): dispozici, podnebí, říši, dívkám, konci, obchodu, obsahu, radě, státům, většině
Gen (1246; 29% of non-empty Case): roku, let, století, války, lidí, dolarů, společnosti, doby, eur, liber
Ins (366; 8% of non-empty Case): l, lety, rokem, autorem, cílem, nedostatkem, nemovitostmi, prezidentem, soudem, vedením
Loc (623; 14% of non-empty Case): roce, letech, době, případě, důsledku, oblasti, světě, městě, období, polovině
Nom (1011; 23% of non-empty Case): film, lidé, společnost, vláda, moře, policie, prezident, stát, systém, člověk
Voc (1; 0% of non-empty Case): přátelé
EMPTY (167): Curie, DNA, GCA, MPS, Pebe, Really, m, my, t, A

Paradigm stát	`Nom`	`Acc`	`Dat`	`Gen`	`Loc`	`Ins`
`Number=Sing`	stát	stát		státu		státem
`Number=Plur`	státy		státům	států	státech

`ADJ`

2025 ADJ tokens (89% of all ADJ tokens) have a non-empty value of Case.

The most frequent other feature values with which ADJ and Case co-occurred: VerbForm=EMPTY (1962; 97%), Voice=EMPTY (1962; 97%), Polarity=Pos (1856; 92%), Degree=Pos (1763; 87%), Number=Sing (1361; 67%), Animacy=EMPTY (1204; 59%).

ADJ tokens may have the following values of Case:

Acc (397; 20% of non-empty Case): další, první, vlastní, jiné, novou, nové, hlavní, dlouhé, druhou, nový
Dat (86; 4% of non-empty Case): Osmanské, Spojeným, nížinné, obecné, větší, Alexandrově, Druhé, Mrtvým, Parmské, Starší
Gen (520; 26% of non-empty Case): jiných, nových, prvního, Spojených, amerického, dalších, druhé, nové, první, různých
Ins (168; 8% of non-empty Case): americkou, dalším, velkou, dalšími, hlavním, hongkongským, nejvyšším, největším, politickou, první
Loc (227; 11% of non-empty Case): druhé, posledních, Velké, jižní, první, Nové, Severní, Spojených, bronzové, celém
Nom (627; 31% of non-empty Case): další, první, velká, severní, každý, poslední, jasné, jižní, každá, možné
EMPTY (259): The, schopen, řečeno, National, propuštěn, rád, El, New, Saint, San

Paradigm velký	`Nom`	`Acc`	`Dat`	`Gen`	`Loc`	`Ins`
`Animacy=Anim\|Degree=Pos\|Gender=Masc\|Number=Plur`	velcí
`Animacy=Anim\|Degree=Sup\|Gender=Masc\|Number=Plur`						největšími
`Animacy=Inan\|Degree=Pos\|Gender=Masc\|Number=Sing`	velký	velký	velkému	velkého
`Animacy=Inan\|Degree=Pos\|Gender=Masc\|Number=Plur`		velké			velkých
`Animacy=Inan\|Degree=Cmp\|Gender=Masc\|Number=Sing`		větší			větším
`Animacy=Inan\|Degree=Sup\|Gender=Masc\|Number=Sing`		největší				největším
`Degree=Pos\|Gender=Fem\|Number=Sing`	velká	velkou	velké		Velké	velkou
`Degree=Pos\|Gender=Fem\|Number=Plur`	velké
`Degree=Pos\|Gender=Neut\|Number=Sing`		velké			velkém	velkým
`Degree=Pos\|Gender=Neut\|Number=Plur`		velká
`Degree=Cmp\|Gender=Fem\|Number=Sing`	Větší	větší	větší	větší
`Degree=Cmp\|Gender=Fem\|Number=Plur`					větších
`Degree=Sup\|Gender=Fem\|Number=Sing`		největší		největší		největší
`Degree=Sup\|Gender=Neut\|Number=Sing`						největším

`ADP`

1834 ADP tokens (100% of all ADP tokens) have a non-empty value of Case.

The most frequent other feature values with which ADP and Case co-occurred: AdpType=Prep (1682; 92%).

ADP tokens may have the following values of Case:

Acc (323; 18% of non-empty Case): na, pro, za, o, v, po, mimo, přes, ve, mezi
Dat (115; 6% of non-empty Case): k, proti, ke, kvůli, díky, vůči, navzdory, oproti
Gen (411; 22% of non-empty Case): z, do, od, ze, během, podle, u, kolem, bez, kromě
Ins (216; 12% of non-empty Case): s, mezi, před, se, pod, př, nad, za
Loc (763; 42% of non-empty Case): v, na, ve, po, o, při, a
Nom (6; 0% of non-empty Case): de
EMPTY (9): vzhledem, Von, of, Di, On

Paradigm za	`Acc`	`Gen`	`Ins`
`AdpType=Prep`	za	za	za
`AdpType=Voc`		za

`PROPN`

877 PROPN tokens (80% of all PROPN tokens) have a non-empty value of Case.

The most frequent other feature values with which PROPN and Case co-occurred: Polarity=Pos (877; 100%), Foreign=EMPTY (841; 96%), Number=Sing (817; 93%), Gender=Masc (590; 67%), Animacy=Anim (446; 51%).

PROPN tokens may have the following values of Case:

Acc (69; 8% of non-empty Case): Německo, Richarda, Trumpa, Abakumova, Aljašku, Alvareze, Andre, Anglii, Annu, Antarktidu
Dat (31; 4% of non-empty Case): Evropě, Itálii, Roně, Rusku, Andymu, Benoîtovi, Britům, Churchillovi, Disneyovi, Francii
Gen (177; 20% of non-empty Case): Clintonové, Albánie, Ameriky, Afriky, Burgoyna, Disneyho, Donalda, Duffyho, Egypta, Francie
Ins (70; 8% of non-empty Case): Albánií, Bogdgegénem, Kristem, Markem, Alvarezem, Anglií, Asií, Averym, Benátkami, Brantem
Loc (93; 11% of non-empty Case): Británii, Asii, Africe, Americe, Evropě, Facebooku, Glasgow, Itálii, Norsku, Papui
Nom (437; 50% of non-empty Case): Čína, Trump, Bluntová, Británie, Donald, Francie, Mišima, Seagal, Winstone, Wright
EMPTY (214): USA, Čching, BBC, Danevirke, CNN, EU, Aviva, Bank, Brisbane, Company

Paradigm Trump	`Nom`	`Acc`	`Gen`	`Ins`
	Trump	Trumpa	Trumpa	Trumpem

`DET`

721 DET tokens (89% of all DET tokens) have a non-empty value of Case.

The most frequent other feature values with which DET and Case co-occurred: Gender[psor]=EMPTY (701; 97%), Number[psor]=EMPTY (674; 93%), Person=EMPTY (674; 93%), Animacy=EMPTY (635; 88%), Reflex=EMPTY (634; 88%), Poss=EMPTY (587; 81%), Number=Sing (495; 69%).

DET tokens may have the following values of Case:

Acc (144; 20% of non-empty Case): to, své, svůj, svou, které, několik, který, kterou, mnoho, toto
Dat (27; 4% of non-empty Case): tomu, svým, kterému, své, těm, těmto, jakékoliv, jejím, kterým, svému
Gen (101; 14% of non-empty Case): toho, tohoto, svého, svých, těchto, své, mnoha, té, všech, jejích
Ins (56; 8% of non-empty Case): tím, n, svým, jakým, jejím, mnoha, svou, tou, tímto, těmi
Loc (55; 8% of non-empty Case): této, tom, svém, té, kterém, tomto, kterých, některých, své, svých
Nom (338; 47% of non-empty Case): to, který, která, které, kteří, mnoho, tento, její, toto, tato
EMPTY (92): jeho, jejich, její, jejichž, jehož, jejíž

Paradigm ten	`Nom`	`Acc`	`Dat`	`Gen`	`Loc`	`Ins`
`Animacy=Anim\|Gender=Masc\|Number=Plur`		ty
`Animacy=Inan\|Gender=Masc\|Number=Sing`		ten
`Animacy=Inan\|Gender=Masc\|Number=Plur`	ty
`Gender=Masc,Neut\|Number=Sing`			tomu	toho	tom	tím
`Gender=Masc\|Number=Sing`	ten
`Gender=Fem\|Number=Sing`	ta			té	té	tou
`Gender=Fem\|Number=Plur`	ty	ty
`Gender=Neut\|Number=Sing`	to	to
`Number=Plur`			těm	těch		těmi

`PRON`

576 PRON tokens (100% of all PRON tokens) have a non-empty value of Case.

The most frequent other feature values with which PRON and Case co-occurred: PrepCase=EMPTY (512; 89%), PronType=Prs (479; 83%), Gender=EMPTY (470; 82%), Person=EMPTY (450; 78%), Number=EMPTY (425; 74%), Variant=Short (378; 66%), Reflex=Yes (353; 61%).

PRON tokens may have the following values of Case:

Acc (371; 64% of non-empty Case): se, ho, co, ji, mě, je, nás, něco, nic, ně
Dat (79; 14% of non-empty Case): si, mu, jí, jim, nám, mi, čemuž, nimž, němu, něčemu
Gen (33; 6% of non-empty Case): nich, ní, něj, jich, nichž, mě, něhož, sebe, jehož, jí
Ins (21; 4% of non-empty Case): ním, nimi, jím, čímž, nikým, ničím, ní, něčím, sebou, čím
Loc (16; 3% of non-empty Case): níž, ní, něm, nich, nichž, něčem, sobě, veškeré
Nom (56; 10% of non-empty Case): což, co, kdo, jenž, někdo, já, nic, on, jež, kdokoli
EMPTY (2): You, me

Paradigm on	`Nom`	`Acc`	`Dat`	`Gen`	`Loc`	`Ins`
`Animacy=Anim\|Gender=Masc\|Number=Plur`	oni
`Gender=Masc,Neut\|Number=Sing`		něj, něho, ho	němu	něj	něm	ním, jím
`Gender=Masc,Neut\|Number=Sing\|Variant=Short`		ho	mu
`Gender=Masc\|Number=Sing`	on
`Gender=Fem\|Number=Sing`	ona	ji	jí	ní, jí	ní	ní
`Gender=Neut\|Number=Sing`		je
`Number=Plur`		je, ně	jim	nich, jich	nich	nimi

`NUM`

140 NUM tokens (31% of all NUM tokens) have a non-empty value of Case.

The most frequent other feature values with which NUM and Case co-occurred: NumType=Card (140; 100%), NumForm=Word (140; 100%), NumValue=1,2,3 (102; 73%), Number=Plur (82; 59%), Gender=EMPTY (78; 56%).

NUM tokens may have the following values of Case:

Acc (46; 33% of non-empty Case): dva, deset, dvě, čtyři, tři, jedno, jednu, šest, osm, jeden
Dat (3; 2% of non-empty Case): oběma, dvěma
Gen (24; 17% of non-empty Case): jedné, dvou, deseti, jednoho, tří, šesti, obou, osmdesáti, padesáti, sedmi
Ins (14; 10% of non-empty Case): dvěma, jedním, dvaceti, jednou, osmi, třemi
Loc (21; 15% of non-empty Case): dvou, jedné, obou, sedmi, šesti, dvaceti, jedenácti, jednom, pěti, sedmnácti
Nom (32; 23% of non-empty Case): jeden, jedna, čtyři, dva, dvě, oba, devět, jedno, pět, sedmnáct
EMPTY (319): 1, 3, 20, 2014, 2015, 5, I, 10, 100, 1492

Paradigm dva	`Nom`	`Acc`	`Dat`	`Gen`	`Loc`	`Ins`
`Gender=Masc`	dva	dva
`Gender=Fem,Neut`	dvě	dvě
			dvěma	dvou	dvou	dvěma

Relations with Agreement in `Case`

The 10 most frequent relations where parent and child node agree in Case: NOUN –[amod]–> ADJ (1709; 99%), NOUN –[case]–> ADP (1351; 95%), NOUN –[det]–> DET (303; 76%), NOUN –[conj]–> NOUN (247; 97%), PROPN –[case]–> ADP (180; 83%), PROPN –[flat]–> PROPN (105; 80%), PROPN –[amod]–> ADJ (84; 95%), PRON –[case]–> ADP (73; 100%), DET –[case]–> ADP (55; 95%), PROPN –[nmod]–> NOUN (50; 74%).

Treebank Statistics: UD_Czech-PUD: Features: Case

NOUN

ADJ

ADP

PROPN

DET

PRON

NUM

Relations with Agreement in Case