# introduction
- readme to file:	LEX#7_M_97LUs_2x5ling_LING_CRITERIA_corpora_sum.csv
- encoding:	UTF-8
- note:	97 multi-word lemmas from lexicon M of multi-word combinations validated by a team of 5 linguists (Agnieszka-DI, Kamila-DI, Magda-DI, Marta-DI, Marek-DI) and 2 linguists (A, K). 5 linguists assessed lexicalicity of word combinations with intuitive definition (DI - see below) with scale {-2,-1,0,1,2}. 2 linguists annotated word combinations with DI, did one version of our procedure (PROCEDURE) and tested 3 linguistic criteria. Identifications: A = Agnieszka, K = Kamila. Linguists annotated the list independently. The 97 multi-word lemmas were picked as simple random sample from the lexicon M taken from corpus KIPI (by M-ariusz Paradowski, 10000 the best NA pairs according to some measure of collocation strength, type NA = noun + adjective without agreement on gender, case and number).

# description
- DI:	intuitive definition:

Chcemy wprowadzić do Słowosieci takie połączenia wyrazowe, o których myślimy jako o całości i których nie komponujemy na bieżąco w tekście, tylko - przywołujemy z pamięci albo znajdujemy w słownikach specjalistycznych czy w encyklopediach. Typowe przykłady takich połączeń wyrazowych to wyrażenia idiomatyczne, terminologia i zestawienia. Nie chcemy w Słowosieci połączeń całkowicie produktywnych, na przykład większości wyrażeń typu [cecha fizyczna] + [rzecz] → [ta rzecz z tą cechą fizyczną] albo [rzecz] + [osoba (w dopełniaczu)] → [ta rzecz tej osoby].

Proszę, odpowiedz na pytanie, które odwołuje się do Twojego wyczucia językowego:

Test: Czy w świetle tego opisu XYZ powinno się znaleźć w Słowosieci?
Zaznacz miejsce na poniższej skali.

-2 = NIE (no)
-1 = RACZEJ NIE (rather no)
0 = NIE WIEM (don't know)
1 = RACZEJ TAK (rather yes)
2 = TAK (yes)

- lemma:	54 multi-word lemmas taken from M. These were the most frequent forms of a word pair (though not necessarily in nominative)
- author:	one of the 8 linguist annotating the list with linguistic criteria, the PROCEDURE and DI
- linguistic criteria:	of a form similar to https://docs.google.com/document/d/1h1lr5KELruF8yrUppOV2xU4VQcY-O8TOjGrj2l5KiCc/edit#heading=h.o2z4mr8j71ge or https://docs.google.com/document/d/1I-Qs0ZrZ2jjOVfM2RL-LS3xPDFBmfffb3ty9Ygbq9EE/edit#heading=h.o2z4mr8j71ge
- TERM:	being a term
- SPECJ:	specialist register
- PARAFR:	paraphraseability
- N:	N = AB + BA = number of occurrences of a given multi-word combination in IPIC PAS corpus
- AB:	frequency of the order AB in IPIC PAS corpus (wihout agreement)
- BA:	frequency of the reversed order BA in IPIC PAS corpus (wihout agreement)
- ACB:	frequency of the order AB with a third word between the two words (separability) in IPIC PAS corpus (wihout agreement)
- BCA: frequency of the order BA with a third word between the two words (separability with reversed order) in IPIC PAS corpus (wihout agreement)
- SN:	measure of separability: SN = (ACB+BCA+1)/(N-kipi+1)
- ABBA:	measure of fixed order: ABBA = (AB+1)/(BA+1)
- BCABA = (BCA+1)/(BA+1)
- ACBAB = (ACB+1)/(AB+1)
- ACB/N: measure of separability: ACB/N = (ACB+1)/(N-kipi+1)
- sample = u = learning sample (u-cząca)
