# introduction
- readme to file:	LEX#9_MW_62LUs_6ling_DI.csv
- encoding:	UTF-8
- note:	62 multi-word lemmas from lexicon MW of multi-word combinations validated by a team of 6 linguists (AB, AD, EK, MD, MM, PW) which assessed lexicalicity of word combinations with intuitive definition (DI - see below) on scale {-2,-1,0,1,2}. The simple random sample was taken from the lexicon MW generated by Michał Wendelberger on kgr7 Corpus (plWordNet Corpus v. 7.0), the list MW constists of such noun+adjective pairs that gained score >= 0,000001 of Wendelberger's measure, and got <##as1DD>, <##as2DD> and <##as3DD> annotations from the (*) decision tree (see below).

# description
- DI:	intuitive definition of multi-word lexical unit

Chcemy wprowadzić do Słowosieci takie połączenia wyrazowe, o których myślimy jako o całości i których nie komponujemy na bieżąco w tekście, tylko - przywołujemy z pamięci albo znajdujemy w słownikach specjalistycznych czy w encyklopediach. Typowe przykłady takich połączeń wyrazowych to wyrażenia idiomatyczne, terminologia i zestawienia. Nie chcemy w Słowosieci połączeń całkowicie produktywnych, na przykład większości wyrażeń typu [cecha fizyczna] + [rzecz] → [ta rzecz z tą cechą fizyczną] albo [rzecz] + [osoba (w dopełniaczu)] → [ta rzecz tej osoby].

Proszę, odpowiedz na pytanie, które odwołuje się do Twojego wyczucia językowego:

Test: Czy w świetle tego opisu XYZ powinno się znaleźć w Słowosieci?
Zaznacz miejsce na poniższej skali.

-2 = NIE (no)
-1 = RACZEJ NIE (rather no)
0 = NIE WIEM (don't know)
1 = RACZEJ TAK (rather yes)
2 = TAK (yes)

- the most frequent form from a corpus
- 2 lemmas:	a pair divided into 1-grams and lematised
- POS:	parts of speech of pair components
- tag:	{<##as1DD>, <##as2DD>, <##as3DD>} = type of syntactic irregularity
- score MW: 	measure of collocation strength by Michał Wendelberger

- decision tree (*)

AB > BA
| no --> ~LU
| yes --> ACB/N-bu [separability] <= 0.001458
	| TAK => LU <##as1DD>
	| NIE => AB/N-bu [fixed order 1] <= 0.966887?
		| TAK ==> ~LU
		| NIE ==> ABBA [fixed order 2] <= 54.923077
			| TAK --> <##as2DD>
			| NIE --> <##as3DD>

- N-bu = N-kipi
- N-zu = AB-zu + BA-zu
- AB-zu:	frequency of the order AB in IPIC PAS corpus (with agreement)
- BA-zu:	frequency of the reversed order BA in IPIC PAS corpus (with agreement)
- N-kipi:	N-kipi = AB + BA = number of occurrences of a given multi-word combination in IPIC PAS corpus
- type:	structural type of a given multi-word combination (NA = noun + adjective in postposition, agreed on number, gender and case, PP = nominal phrase with prepositional phrase, NG = nominal phrase with a modifier in genetive, C = nominal phrase with a conjunctive, AN = adjective in preposition + noun, agreed on number, gender and case, AAA - 3-word combination agreed on number, gender and case
- AB:	frequency of the order AB in IPIC PAS corpus (wihout agreement)
- BA:	frequency of the reversed order BA in IPIC PAS corpus (wihout agreement)
- ACB:	frequency of the order AB with a third word between the two words (separability) in IPIC PAS corpus (wihout agreement)
- BCA: frequency of the order BA with a third word between the two words (separability with reversed order) in IPIC PAS corpus (wihout agreement)
- SN:	measure of separability: SN = (ACB+BCA+1)/(N-kipi+1)
- ABBA:	measure of fixed order: ABBA = (AB+1)/(BA+1)
- ACB/N-bu: measure of separability: ACB/N-bu = (ACB+1)/(N-kipi+1)
- AB/N-bu: measure of fixed order: AB/N-bu = (AB+1)/(N-kipi+1)
- -bu:	stands for "bez uzgodnienia" (without agreement = we do not check whether two words are agreed on number, gender and case
- -zu: stands for "z uzgodnieniem" (with agreement)
- -kipi: stands for "KIPI" = Korpus Instytutu Podstaw Informatyki PAN = IPIC PAS
