2 Zestaw znaczników morfosyntaktycznych

(Autor: Adam Przepiórkowski; ostatnia modyfikacja: 2 października 2011)

Każdy znacznik morfosyntaktyczny jest ciągiem wartości rozdzielonych dwukropkami, np.: subst:sg:nom:m1 dla segmentu chłopiec. Pierwsza wartość, np. subst, określa klasę gramatyczą (por. p.2.2), następne zaś, np. sg, nom i m1 wartości odpowiednich dla tej klasy kategorii gramatycznych (por. p.2.1).

2.1 Kategorie gramatyczne

Poniższa tabela przedstawia repertuar kategorii gramatycznych używanych w Narodownym Korpusie Języka Polskiego.

Liczba: (2 wartości)
pojedyncza sg oko
mnoga pl oczy
Przypadek: (7 wartości)
mianownik nom woda
dopełniacz gen wody
celownik dat wodzie
biernik acc wodę
narzędnik inst wodą
miejscownik loc wodzie
wołacz voc wodo
Rodzaj: (5 wartości)
męski osobowy m1 papież, kto, wujostwo
męski zwierzęcy m2 baranek, walc, babsztyl
męski rzeczowy m3 stół
żeński f stuła
nijaki n dziecko, okno, co, skrzypce, spodnie
Osoba: (3 wartości)
pierwsza pri bredzę
druga sec bredzisz
trzecia ter bredzi
Stopień: (3 wartości)
równy pos cudny
wyższy com cudniejszy
najwyższy sup najcudniejszy
Aspekt: (2 wartości)
niedokonany imperf iść
dokonany perf zajść
Zanegowanie: (2 wartości)
niezanegowana aff pisanie, czytanego
zanegowana neg niepisanie, nieczytanego
Akcentowość: (2 wartości)
akcentowana akc jego, niego, tobie
nieakcentowana nakc go, -ń, ci
Poprzyimkowość: (2 wartości)
poprzyimkowa praep niego, -ń
niepoprzyimkowanpraepjego, go
Akomodacyjność: (2 wartości)
uzgadniająca congr dwaj, pięcioma
rządząca rec dwóch, dwu, pięciorgiem
Aglutynacyjność: (2 wartości)
nieaglutynacyjna nagl niósł
aglutynacyjna agl niosł-
Wokaliczność: (2 wartości)
wokaliczna wok -em
niewokaliczna nwok -m
Kropkowalność: (2 wartości)
z następującą kropką pun tzn
bez następującej kropki npun wg

2.2 Klasy gramatyczne

Zasięg tradycyjnych części mowy, takich jak czasownik, rzeczownik, liczebnik czy zaimek, jest nieostry i przez to kontrowersyjny: czy tzw. odsłowniki, tj. formy typu picie i palenie, to czasowniki (posiadają kategorię aspektu, są regularnie powiązane z formami czasownikowymi typu pić i palić), czy też rzeczowniki (odmieniają się przez przypadek, posiadają słownikową kategorię rodzaju)?, czy piąty to liczebnik (na to wskazuje semantyka), czy też przymiotnik (na to wskazuje odmiana)?, czy taki to zaimek (semantyka), czy przymiotnik (odmiana)?

W Narodowym Korpusie Języka Polskiego klasy gramatyczne rozumiane są morfosyntaktycznie są one oparte na pojęciu fleksemu, będącym pojęciem węższym od terminu leksem.

Poniższa tabela zawiera przybliżoną charakterystykę morfoskładniową wszystkich klas fleksyjnych przyjmowanych w niniejszym tagsecie. Symbol oznacza, że dla danej klasy fleksyjnej dana kategoria gramatyczna jest morfologiczna (fleksemy należące to tej klasy zwykle „odmieniają się” przez tę kategorię), zaś symbol oznacza, że dana kategoria jest słownikowa (wszystkie formy dowolnego fleksemu należącego do tej klasy mają tę samą wartość tej kategorii, choć mogą to być różne wartości dla różnych fleksemów, jak w wypadku rodzaju rzeczowników).

liczbaprzypadekrodzajosobastopieńaspektzaneg.akcent.poprzyim.akomod.aglutyn.wokal.kropk.
rzeczownik
rzeczownik deprecjatywny
liczebnik główny
liczebnik zbiorowy
przymiotnik
przymiotnik przyprzym.
przymiotnik poprzyim.
przymiotnik predykatywny
przysłówek
zaimek nietrzecioosobowy
zaimek trzecioosobowy
zaimek siebie
forma nieprzeszła
forma przyszła być
aglutynant być
pseudoimiesłów
rozkaźnik
bezosobnik
bezokolicznik
im. przys. współczesny
im. przys. uprzedni
odsłownik
im. przym. czynny
im. przym. bierny
winien
predykatyw
przyimek
spójnik współrz.
spójnik podrz.
kublik
skrót
burkinostka
wykrzyknik
interpunkcja
ciało obce
forma nierozpoznana

Poniższa tabela zawiera informacje o formach podstawowych dla poszczególnych klas fleksyjnych, a także skróty nazw klas fleksyjnych używane w korpusie.

fleksem skrót forma podstawowa przykład
rzeczownik subst mianownik liczby pojedynczej profesor
rzeczownik deprecjatywny depr mianownik liczby pojedynczej rzeczownika profesor
liczebnik główny num mianownik rodzaju męskiego rzeczowego pięć, dwa
liczebnik zbiorowy numcol mianownik rodzaju męskiego rzeczowego liczebnika głównego pięć, dwa
przymiotnik adj mianownik liczby pojedynczej rodzaju męskiego stopnia równego polski
przymiotnik przyprzym. adja mianownik liczby pojedynczej rodzaju męskiego przymiotnika w stopniu równympolski
przymiotnik poprzyimkowyadjp mianownik liczby pojedynczej rodzaju męskiego przymiotnika w stopniu równympolski
przymiotnik predykatywnyadjc mianownik liczby pojedynczej rodzaju męskiego przymiotnika w stopniu równymzdrowy, ciekawy
przysłówek adv forma stopnia równego dobrze, bardzo
zaimek nietrzecioosobowy ppron12mianownik liczby pojedynczej ja
zaimek trzecioosobowy ppron3 mianownik liczby pojedynczej on
zaimek siebie siebie biernik siebie
forma nieprzeszła fin bezokolicznik czytać
forma przyszła być bedzie bezokolicznik być
aglutynant być aglt bezokolicznik być
pseudoimiesłów praet bezokolicznik czytać
rozkaźnik impt bezokolicznik czytać
bezosobnik imps bezokolicznik czytać
bezokolicznik inf bezokolicznik czytać
im. przys. współczesny pcon bezokolicznik czytać
im. przys. uprzedni pant bezokolicznik czytać
odsłownik ger bezokolicznik czytać
im. przym. czynny pact bezokolicznik czytać
im. przym. bierny ppas bezokolicznik czytać
winien winien forma męska liczby pojedynczej powinien, rad
predykatyw pred jedyna forma tego fleksemu warto
przyimek prep niewokaliczna forma tego fleksemu na, przez, w
spójnik współrzędny conj jedyna forma tego fleksemu oraz
spójnik podrzędny comp jedyna forma tego fleksemu że
kublik qub jedyna forma tego fleksemu nie, -że, się
skrót brev forma hasłowa rozwinięcia skrótu rok, i tak dalej
burkinostka burk jedyna forma tego fleksemu trochu, oścież
wykrzyknik interj jedyna forma tego fleksemu ech, kurde
interpunkcja interp jedyna forma tego fleksemu ;, ., (, ]
ciało obce xxx jedyna forma tego fleksemu cool , nihil
forma nierozpoznana ign jedyna forma tego fleksemu