Botai ateina. Jie ateina pas mus.

Ponas Vytautas V. Landsbergis yra žmogus, o ne botas. Nes botai nemoka dviprasmybių.

Mano blogo statistika rodo, kad tik vienas iš 10 apsilankiusiųjų yra žmogus. Spaminių komentarų – irgi 10 kartų daugiau, nei tikrų. Gerai dar kad yra softo, kuris prieš tuos botus padeda atsilaikyti. Ir gerai, kad aš rašau lietuviškai. Ir gerai, kad aš parašiau neseniai apie blogerio dilemą ir nutariau nepalikti apgalvojimui šito straipsnio, todėl neapgalvotai jį jums duosiu iškart.

Aš čia pasakysiu jums vieną nuostabų lietuvių kalbos privalumą: kadangi ji neturi gramatikos*, tai nepavyksta padaryti normalių botų, kurie parsintų ir generuotų. To dėka mes vis dar galim jaustis saugiais, kai anglakalbiai jau ima dusti ir neretai neįstengia atskirti, kur kažką rašinėja botas, o kur – žmogus. O lietuviams dar ilgokai seksis, nes ir šalis maža, ir kalba nenormali. Kartais kalbėti sintetine, o ne analitine kalba – tikras džiaugsmas, žinokite.

O anglakalbiams sunkiau. Botai jau senokai rašo tekstus, dalyvauja diskusijose (ir forumuose, ir bloguose), lengvai palaiko pokalbį, konsultuoja klientus, įkalba juos pirkti ir t.t.. Naujesnės tendencijos – botai, kurie emuliuoja ir žmogaus išvaizdą, pvz., pr0n čiatuose: klientas galvoja, kad kalba su žmogum ir žiūri į tikrą pliką mergą, bet kuriem galam samdyti žmogų, kai galima tą su softu atlikti ir parodyti? Esant geram trimačiam modeliui, parinktoms tekstūroms ir pakankamai prastam (mažos rezoliucijos) galutiniam vaizdui, atskirti generuoto pseudožmogaus nuo tikros pasamdytos merginos – neįmanoma. Čia prieš dešimt metų sėdėdavo būriai mergų lietuvaičių ir čiatindavo plikos prieš webkamus, o kam jų dabar reikia?

Japonai jau daro botų koncertus, o kompiuteriai puikiai gali patys sugeneruoti visokias melodijas ir aranžuotes. Visai patys, be žmogaus įsikišimo. Aš čia prisimenu kažkokį vieną senai matytą UNIX skrynseiverį, kur kompas kūrė nesibaigiantį modernistinį meną – filmą su žmonėmis, paveikslais, gėlėmis ir t.t.. Apie tai, kad elektroninę šiuolaikinę muziką kompai gali generuot – tai matyt išvis nereikia nei kalbėti. Tūpas dubstepas yra toksai dubstepas.

Nukrypstant nuo temos: kai kažkas šneka apie autorių teises ir bloguosius piratus, tai yra panašiai, kaip žmogus šnekėtų apie tai, kad jam gėles kažkas sutrypė ir policija turi niekadėjus susekti ir nubausti. Taip, gal ir turėtų. Tik tiek, kad aplink vyksta karas ir visiems aišku, kad per artimiausias savaites ant miesto bus užleistas firestormas**, kuris sudegins ir gėlių savininką, ir niekadėjus, ir policininkus, ir gėles. Kokios dar gėlės, kokie dar piratai?

Kokie dar šūdai, atleiskite, kai pusė Tviterio yra botai, pusė FB turinio yra sugeneruota paties FB, o iš likusios pusės – visokių spaminių programų, o pusė interneto yra automatais generuojami ir dar dinamiškai perredaguojami straipsniai? Aš rašiau apie ekonominę kintančios kūrybinės paradigmos potekstę, bet realybė čia yra daug trivialesnė ir kartu baisesnė, nei gali pasirodyti. Mes dar nespėjom susitaikyti su iki nulio krentančia tiražavimo ir platinimo savikaina, o jau ir kūrybos savikaina irgi artėja prie nulio, nes viską kurti pradeda botai. Tūpos, tūpos programos.

Dabar paplitęs dalykas, kai koks nors autoblogingo botas paima iš kokio nors tinklaraščio RSS, sukaitalioja ten vardus ir vietovardžius, kažkiek žodžių pakeičia sinonimais, dar pakaitalioja sakinių struktūrą ir gaunasi visai lyg ir originalūs straipsniai, kurie atrodo, kad rašomi tikro žmogaus. Vienas tikras žmogus rašo, o tuo tarpu koks šimtas spaminių blogų daro patyliukais kopijas, kurios net ne kaip kopijos atrodo. Ir tuose autobloguose dar atskiri botai į lankytojų komentarus atsakinėja. O dar kiti botai vaikšto po kitus blogus ir komentarus rašinėja taip, kad atrodo, jog gal net visai į temą.

Ne, Lietuvoje dar nelabai tie botai siautėja. Čia pas anglakalbius. Bet ir Lietuvoje taip bus po kelerių metų. O pas anglakalbius po kelerių metų jau bus pilnavertis generavimas. Jau ir dabar jo yra pilna, tik kad jis dažniausiai nykus – paprastai viena ar kelios pastraipos su funkciniais kintamaisiais, kurie iš sinonimų žodynėlių traukiami. Bet juk technika tobulėja, vystosi. Softas irgi tobulėja. Lietuviškų spamų, kurie taip generuoti, jau irgi pasitaiko tarpais.

Kadaise kažkas pasakė, kad tėra kelios dešimtys bazinių siužetų***, kur skirtumai – tik veikėjų varduose ir vietovių pavadinimuose. Tinkamai pakeitus vardus, vietovardžius ir šiaip visokias smulkmenėles, galima iš tų kelių dešimčių siužetų gauti viską. Prikabinkim prie to DB su vardais bei vietovardžiais, gerą žodyną su sinonimų rinkiniais ir semantiniais laukais, o tada pridėkim teksto generatorių. Fcuk, rašytojai jau gali ieškotis darbo statybose.

Ai, ne, ne visai dar fcuk. Vienas dalykas yra, kurio niekaip nepavyksta padaryti botams. Teksto daugiaprasmiškumas, daugiasluoksniškumas, kuris pametamas, net jei ir gyvo pradinio teksto transformacijos daromos. Ponas Vytautas V. Landsbergis puikiai tą daugiasluoksniškumą yra įvaldęs savo pasakose.

Ponai, aš jums pasakysiu, kas išgelbės nuo botų ir kaip galima atpažinti net ir gudriausius iš jų. Bent kol kas. Botai nemoka sąmojingai visko supošlinti ir prikalbėti dviprasmybių, nes jų galvutės, žinote, nelabai vaisingos. Taip, jei žmogus kalba jums dviprasmybes ir pošlina – tai bent jau ne botas, o žmogus.

———–

* Bet kuris kalbainis pakleidėtų mielai, esą lietuvių kalba gramatiką turi. Tai čia, ponai kalbainiai, aš jums pasakysiu paprastai: išparsinkite šitą tekstą automatu ir sugeneruokite iš jo tą patį su kita struktūra. Automatu, pagal formalius požymius. Apsišiksite, bebandydami bent pradėti, aš jums tai pažadu nuoširdžiai ir su visomis garantijomis. Apsišiksite, net pavienį sakinį bandydami parsinti. Nes jums nepavyks per tiek laiko, kiek gali žmogus nešikti, sugalvoti parsinimo taisyklių, net jei jums viduriai yra užkietėję visiškai. Ir dar daugiau, bebandydami atrasite, kad toji „gramatika“, kurią jūs sakote esant, staiga paaiškėja netinkama, o jūs, bebandydami, pereinate į buką analizę pagal žodynus. Taip kad nešnekėkite man, kad lietuvių kalba turi gramatiką ir aš jums nesakysiu, kokiu keliu jums eiti į tą vietą, kurią jau gerai žinote ir ten reguliariai lankotės, nes kelią į ten jau pramyntėte, taip kad tenai jau ir eikite.

** Nei nežinau, kaip tą dalyką gražiai pavadinti lietuviškai. Antrojo Pasaulinio karo metais britų ir amerikonų aviacijos vadai sugalvojo tokį dalyką gudrų: jei nemažą miestą išbombini fugasais, o paskui užvarai ant griuvėsių krūvas padegamųjų bombų, tai kyla tokie gaisrai, kad susdaro tikra ugnies audra. Drezdeno ir Tokijo bombardavimai savo žiaurumu buvo panašūs Hirosimą ir Nagasakį, nors ir be jokių atominių bombų.

*** Vat jums toks privalumas greito rašymo: kadangi pavardžių neatsimenu, tai faktų netrauksiu, o patys ieškokitės.

Rokiškis Rabinovičius rašo jūsų džiaugsmui

Aš esu jūsų numylėtas ir garbinamas žiurkėnas. Mano pagrindinis blogas - Rokiškis Rabinovičius. Galite mane susirasti ir ant kokio Google Plus, kur aš irgi esu Rokiškis Rabinovičius+.

62 thoughts on “Botai ateina. Jie ateina pas mus.”

Julius 2012/03/31 at 00:44

Primena epizodą iš Orwello 1984, kur veikėjas mąstydamas stebėjo bobą proletarę, dainuojančią primityvią dainą, kuri iš tiesų buvo sugeneruota mašinos. Orwellas, gyvenęs mechaninių skaičiavimo mašinų laikais, apie dabarties galimybes nė nesapnavo, kaip ir mes su savo ateities pranašystėm vis tiek ne kažin ką nuspėsim.

O dėl to, kad dubstepas yra sukurtas automatiškai, galima ginčytis. Metalistui kokia elektroninė muzika gal ir skamba kaip savaime sugeneruota, bet iš tiesų ją kuria žmonės (vyresniai kartai, kaip žinia, ir mietalas skamba taip pat nepakenčiamai 🙂 ) Žinoma, dubstepo kūryba vyksta kompe (Ableton, FL studio, Reason ar dar kokiu biesu), bet tai visgi žmogaus kūryba.

Na, nebent aš ko nežinau.

Reply ↓
1. Rokiškis Post author2012/03/31 at 02:28
  
  Dubstepą galima kurti automatiškai. Tai nereiškia, kad nėra tokių, kurie eitų sunkesniu keliu ir kurtų neautomatiškai lygiai tą patį, ką galėtų turėti ir automatiškai.
  
  O štai apie blablabla, metalistui, etc. -- čia, žinote, kaip jums pasakyti… Įvairiai tai galima pasakyti, bet praktikoje yra taip, kad visokie remiksuotojai ir surinkinėtojai iš semplų dažniausiai save smarkiai pervertina. Tie darymai iš semplų ir visokie dubai jau ketvirtį amžiaus vyksta, bet kažkaip iki šiol nelabai kas teatsirado išliekančio.
  
  Čia ne ginčui, o tiesiog iliustravimui -- atsiminkite maždaug 10 metų senumo elektrinio gabalo pavadinimą. Kokį nors. Būtent iš atminties, o ne paieškojus internetuose ar senuose įrašų kratiniuose 🙂
  
  ————
  
  O dėl primityvių dainų generavimo -- čia yra puikus variantas, labai supaprastinantis reikalą. Svarbus yra rimavimas, o žodynas labai ribotas. Tuo tarpu į prasmingumą nusispjaut išvis, nes beprasmybės suvokiamos, kaip dvasingi poetiškumai.
  
  Beje, daugelio poetų kuriami fufeliai pretenduoja į menamus dvasingumus būtent tuo pagrindu -- parašo kokią nors beprasmybę, o tada sako, kad čia užmislas toks.
  
  Reply ↓
Aspats 2012/03/31 at 00:49

„Protingų“ tekstų generatorius: http://www.elsewhere.org/pomo/
O rimčiausias pokštas susijęs su fiziku A. Sokalu, kurio taip parašytą tekstą priėmė rimtas mokslinis žurnalas.

Reply ↓
1. Rokiškis Post author2012/03/31 at 02:07
  
  Čia yra viena tokia įdomybė, jei jau apie fiziką: viena iš neišsprendžiamų matematinių problemų yra pilnos fizikos aksiomatikos sukūrimas.
  
  Tačiau nepilna fizikos aksiomatika yra ir dabar, todėl pagal ją bent iš principo galima generuoti moksliškai teisingus teorinius straipsnius, įskaitant ir tokius, kuriais bus aprašomi įdomūs nauji moksliniai atradimai.
  
  O anglų kalba čia yra nuostabi -- ji tokia analitiška, kad bent jau mokslinius straipsnius galima parsinti nelyg programų tekstus, o iš to generuoti naujus tekstus, kurie adekvačiai atstovautų tų pirminių tekstų paradigmą.
  
  Iš tamstos sakinio, pvz., galima gauti tokį tekstą: „rimtas mokslinis žurnalas priėmė tekstą, kurį parašė fizikas A. Sokalas, o tai rimčiausias pokštas“.
  
  Ar labai pasikeitė prasmė? Iš to jau galim užduoti kitą klausimą: jei prasmė išliko, tai ar generavimas patikrinto teksto pagrindu pagal patikimas taisykles yra laikytinas neadekvačiu?
  
  Reply ↓
  1. Alvidon 2012/04/14 at 02:06
    
    Kotais visai nieko nesupratau: nuo kada pilna fizikos aksiomatika yra matematikos/matematinė problema ???
    
    Reply ↓
    1. Rokiškis Post author2012/04/14 at 11:05
      
      Nuo tada, kai David Hilbert šią problemą paskelbė viena iš esminių matematikos problemų. Maždaug prieš 100 metų.
      
      Reply ↓
Ele 2012/03/31 at 09:13

Tai dabar, kad irodyciau esantis zmogus, reikia pradeti keiktis komentaruose? 🙂

Reply ↓
Algirdas 2012/03/31 at 12:05

Ele, ne keiktis o poshlint

Reply ↓
1. Rokiškis Post author2012/03/31 at 14:48
  
  Ir dargi ne šiaip pošlinti, o dviprasmiškai.
  
  Reply ↓
  1. Ele 2012/03/31 at 15:49
    
    Oi, ta tai moku, va pagaliau bus man kur atskleisti ilgus metus gniauzta talenta 😀
    
    Reply ↓
    1. Rokiškis Post author2012/03/31 at 15:57
      
      Skleiskite ir žmonės jus įvertins 🙂
      
      Reply ↓
      1. Ele 2012/03/31 at 21:32
        
        Aciū už palaikymą. Man tai daug reiškia. 🙂
        
        Reply ↓
        
        Rokiškis Post author2012/03/31 at 23:29
        
        Čia galime pamąstyti dar ir apie kai kuriuos būsimus etiketo pokyčius -- gali būti, kad po keliasdešimt metų pasidarys įprasta, kad vietoje kalbų apie tai, kad oras drėgnas, vos užmezgus pažintį (o savaime aišku, pažintys -- internetuose) bus kalbama apie tai, kad drėgnas ne tik oras. Taip galėsime įsivertinti, kad kalbam su žmogum.
        
        Kita vertus, tai bus nuolatinis išradingumo išbandymas, nes botų kūrėjai kiš į duomenų bazes gatavus rinkinius klausimų ir atsakymų. Tad vertinami bus tie, kas sugeba įspūdingai trykštelti sąmojais.
        
        Reply ↓
viz3 2012/03/31 at 12:53

Su visais atsiprašymais aišku, bet turiu pastebėti, kad vėl parašyta nesamonė -- bent jau apie 3D (kuriuo aš kartais užsiimu, todėl truputį išmanau).
Netgi geriausiuose still’uose galima atskirti nuotrauką nuo CG. Pvz., http://ninjacrunch.com/the-most-beautiful-3d-girls/ .
O animuotą CG merginą nuo tikros atskirs netgi pusaklis žmogus.
Žinoma, Rokiškis, būdamas ne idealiu botu (na neapsimoka tokiai mažai rinkai rašyti gerą programą), gal ir nelabai jas atskiria:)

Reply ↓
1. Rokiškis Post author2012/03/31 at 14:25
  
  Aš jums pasakysiu, kodėl atskiria visi -- dėl vienos neįtikėtinai bukos priežasties, kuri yra jumyse -- CG modeliuotojuose. Dėl to, kad CG modelius kuriantys bando padaryti tas mergas idealiomis 🙂
  
  Padarykite tokią mergą pusbaise, užtraukite ant jos tekstūrą, imtą nuo natūralaus, tikro žmogaus (su plaukeliais, apgamais, spuogais, raukšlėmis, etc.), dar apšvietimą lievą su prastu kontrastu -- atskirti bus jau labai sunku 🙂
  
  O tada rezoliuciją sumažinkit iki 240x320, pridėkite triukšmą nuo aukštos kompresijos ir pasižiūrėsim 🙂
  
  Pr0n demkę su netikrom mergom man užrodė dar prieš kokius 5 ar 6 metus, taip kad žinokite, kalbu apie tai, ką esu matęs -- vietoj pr0n filmo tai nesueis, bet vietoj webkamo transliacijos -- puikiai 🙂
  
  BTW, dar iki tų trimačių modelių kai kurie pr0n hostintojai dar prasčiau darydavo -- nufilmuodavo keliasdešimt tikros mergos video gabaliukų, su pozų pokyčiais iš A į B ir lipdydavo bukuoju būdu pagal tai, ką klientas parašo. Ir nors matydavosi, kad susiūtas filmukas, nes kai kuriais momentais trūkčioja, daugelis dėl interaktyvumo visvien patikėdavo, kad gyvai bendrauja.
  
  Žodžiu, viskas žymiai paprasčiau, nei gali pasirodyt 🙂
  
  Reply ↓
Donatas 2012/03/31 at 15:17

10 balų už „gramatiką“. Mokykloje mokytojai sakydavau, kad čia ne taisyklių, o išimčių rinkinys, o ji vis sakydavo, kad aš tiesiog nesuprantu visų taisyklių. Bent vienas bendramintis pasitaikė 🙂

Beja, prancūzams turbūt irgi negresia botai.

Reply ↓
1. Rokiškis Post author2012/03/31 at 16:13
  
  Kalbainiams būna labai liūdna, kai jie susiduria su formaliąja realybe. Tada jie ima pezėti apie kompiuterių netobulumus ir lietuvių kalbos dvasingumą.
  
  Analizuojant jų poziciją ir atsargiai, bet nuosekliai kapstant po tą jų gramatiką, paaiškėja, kad esminis sakinio dalies identifikavimo metodas yra kažkoks giluminis žinojimas, kad tas ir anas yra tas ir anas.
  
  Paprastai šnekant, skirstymas į kalbos ir sakinio dalis pas juos paremtas labiau semantika, nei formaliomis taisyklėmis.
  
  Reply ↓
  1. glow 2012/04/01 at 15:58
    
    Su pirmąja žvaigždute nesutinku. Na, per dirbtinai sukurtą tualetinį laiko apribojimą tokios problemos nesprendžiamos, tačiau tai dar nereiškia, kad jų išspręsti neįmanoma.
    
    Lietuvių kalba gramatikos taisykles turi -- pagal jas sužymi klaidas mokinuko rašinyje arba komentaruose iškritikuoja beraštį žurnalistą. Jos jau yra formalizuotos kompams: kompiuterinės lingvistikos centras VDU savo puslapyje turi morfologinį anotatorių -- http://tekstynas.vdu.lt/page.xhtml?id=morphological-annotator . Parsinimo taisyklės irgi sugalvotos, nors tą padarė ne kalbininkai, o programuotojai -- ta sritis vadinasi „Natural language processing“.
    
    Dabar dėl automatinio tekstų perrašinėjimo išlaikant prasmę -- to dar nėra net anglų k., nors poreikis -- milžiniškas (pvz., spameriams reikia turinio, kad užpildytų savo SEO puslapius, tačiau perrašyto taip, kad paieškos variklis neužfiksuotų plagiato. Dabar tekstų rašymui pigiai samdomi, pavyzdžiui, kiniečiai per „Mechanical turk“). Reikia pabrėžti, kad čia ne jau ne gramatikos, o loginio suvokimo problema ir probleminė sritis -- kita („Artificial Intelligence“ ir „Machine learning“). Pavyzdžiui, mes turime žodynus, kur pažymėta, ar žodis -- veiksmažodis ar daiktavardis, tačiau nėra žodyno, kuriame „žalia“ ir „salotinė“ būtų abi pažymėtos kaip spalvos, ir apibrėžtas šviesumo/atspalvio niuansas. Žmonės tai išmoksta natūraliai, o kompus reikia apmokyti per AI. Paskutiniai sėkmingi projektai toje srityje -- IBM „Watson“ ir Apple licenzijuojama „Siri“.
    
    Jei VDU numetus tokį mokslinį „grant’ą“ kaip ARPA arba IBM, esu tikras, kad kalbainiai jums tą sakinį išparsintų -- lietuvių kalba nėra neįmanoma -- tiesiog darbo daugiau, nei dabar yra poreikio. O dėl semantikos vs. formalių -- patys žmonės kalba nenormine kalba, gramatiką taiko itin laisvai, jau nekalbant apie rašybą. Tokiam kontekste formali analizė būtų pasmerkta.
    
    Reply ↓
    1. Rokiškis Post author2012/04/01 at 16:37
      
      Ponuli, kad išspręsti kažką įmanoma, tai nereiškia, kad tai yra išspręsta. Skirkite norimą nuo esamo ir nefantazuokite.
      
      Apie tamstos minėtą gramatiką, kaip jūs teigiate jos validumą -- „kritikuojame už blogą rašybą, vadinasi turime tam pagrindą, vadinasi turime taisykles, vadinasi yra gramatika“. LoL.
      
      Apie tamstos minėtą morfologinį anotatorių -- jis dirba pagal žodyną, bet nesugeba netgi primityvaus „čiučiundra skizina faloidus“ išparsint. Apie kokią čia gramatiką mes galime kalbėt?
      
      Apie tamstos pasakymą, kad „parsinimo taisyklės, blablabla, „Natural language processing““ -- čia panašiai, kaip kažkas pasakytų, jog nesigauna šviesos greičio viršyt, o tamsta pasakytumėt, kad tai jau yra išspręsta, tik tą padarė ne astronomai, o fizikai, ir ta sritis vadinasi „General Theory of Relativity“.
      
      Apie tai, kad tekstų perrašinėjimo išlaikant prasmę esą nėra net anglų kalba -- jūs man tai pasakojate? Pas mane kasdien eina dešimtys spaminių komentarų su ta pačia struktūra ir skirtingais žodžiais, o jūs man pasakojate, kad to nėra?
      
      Ir gal jūs manote, kad aš nematęs autoblogintų puslapėlių su prikaitaliotais tekstais? Dar prieš porą metų mano paties šitą lietuvišką blogą kažkokie dolbani rusų spameriai į LJ buvo pradėję varyt su automatinėmis teksto modifikacijomis. Nes jie tai daro tokiais pramoniniais mastais, kad jiems netgi nusispjaut, kad kažkas kažkur netinka.
      
      Ir dar jūs man čia pasakojate, kad tam perrašinėjimui reikia dirbtinio intelekto, nors nežinote, kas per daiktas yra sinonimų žodynai?
      
      Ir kuo tamsta užbaigiate? Tamsta užbaigiate tarpusavy priešingais teiginiais: pirma pasakote, kad kalbainiai išparsintų, o paskui pasakote, kad natūrali kalba yra neišparsinama?
      
      Ponas Glow, jūs padarėte labai daug klaidų savo komentare. LABAI daug klaidų. Ir tos klaidos yra didelės. LABAI didelės.
      
      Reply ↓
      1. glow 2012/04/02 at 11:42
        
        Na, aš tamstos hiperbolę supratau kaip „Lietuvių kalbos niekad nebus įmanoma suparsinti IŠ PRINCIPO, nes ši kalba gramatikos NETURI“ -- todėl ir ginčijuos, kad:
        1) „Niekad“ reikštų kažkokį fundamentalų barjerą. Su parsinimu -- technologija yra, algoritmo tobulinimui apribojimų nematau. Su šviesos greičiu, reikia pašalint masę -- o to nėr kaip padaryt net teoriškai.
        2) Gramatika -- visgi norėčiau pasitikslinti tada, ką vadinate gramatika? Turime pilną rinkinį taisyklių rašybai, linksniavimui, skyrybai, na ir antra tiek apibrėžtų išimčių. Pagal jas galima programiškai ardyt kalbos konstrukcijas ir, pavyzdžiui, identifikuot, kad „žalia bananas“ yra klaida, nes giminė nesuderinta. Ar čia problema yra ta, kad žmonės generuoja tekstus pagal savo nerašytą suvokimą, nepaisydami gramatikos? Bet vienas kitą juk kažkaip supranta, vadinasi tai irgi galima formalizuot.
        
        Dėl nagrinėjimo pagal žodyną -- galima ir be jo, bet tada krenta tikslumas, nes tampa neaišku ar, pvz. „skatina“ yra veiksmažodžio „skatinti“ es.l. forma, ar daiktavardis -- rusiško žodžio „gyvulys“ skolinys. Kad atrinkti reikšmę pagal kontekstą reikia arba dar vieno -- kontekstinio -- žodyno, arba vėl treniruot AI.
        
        Dabar dėl tekstų perrašinėjimo, tai supratote mane neteisingai, sinonimų žodynus žinau. Viena yra imti tekstą ir aklai keisti jį su find/replace pagal žodyną, generuoti šiukšles pagal Markovo grandines arba versti lietuvių->kinų->lietuvių ir turėti „panašų tekstą“ su krūva gramatinių klaidų, ką taip mėgsta spameriai. Dirbtinio intelekto reikia kokybei (konteksto suvokimas), kuri iš esmės leistų pereit Turingo testą, kurios jūs reikalaujate pirmoje žvaigždutėje („pagal formalius požymius“), ir kuriai dabar (už centus) yra samdomi žmonės.
        
        Apibendrinant -- kalba išparsinama, automatinio teksto generavimo dar reikės palaukt, bet tai nereiškia, kad neįmanoma. Kad neskambėtų piktai -- komiksas: http://xkcd.com/810/
        
        Reply ↓
        
        Rokiškis Post author2012/04/02 at 15:12
        
        Ponas Glow, šiaip dėl tamstos apsišvietimo bendro pastebėsiu tamstai vieną tokį dalyką: struktūralistai savo laiku pademonstravo, kad diskursas gali turėti neribotą kiekį naratyvų. O poststruktūralistai pademonstravo, kad naratyvas gali atspindėti neribotą kiekį diskursų. Štai tada visa moderni lingvistika pasijuto atsidūrusi totalioje šiknoje ir jau kelintą dešimtmetį frustruoja, nežinodama, ką daryt.
        
        Tai čia apie tamstos naivų įsivaizdavimą, kad bendras atvejis yra išsprendžiamas ir kad tai yra kitaip, nei su šviesos greičio viršijimu.
        
        Pagal tai, kaip vartojate žodžius „technologija“ ir „algoritmas“, įtariu, kad tamsta apie tą technologiją ir algoritmą žinote kažkaip miglotai. Todėl patariu žodį „technologija“ išmesti visiškai, nes jį vartojate kaip buzzwordą, o vat į žodį „algoritmas“ patariu kaip reikiant pasigilinti, kas jums atneš supratimą, jog algoritmas tėra formalizuotas metodas, o vat formalizuoto metodo mes čia ir neturime.
        
        Tamstos klausimas apie tai, „ką vadinate gramatika“ yra žostkas ir pasako daugiau, nei tamsta galvojate. Tokio tipo klausimus aiškioje situacijoje užduoda nebent žmogus, kuris jau neturi ką pasakyti. Bet aš jums atsakysiu paprastai, kad tamstai kiltų dar daugiau disonanso iš susivokimo, kad tamstai nėra ką pasakyti: gramatika -- tai rinkinys taisyklių/apibrėžimų, pagal kuriuos galima parsinti tekstą. Parsinti tekstą -- tai reiškia, kad jį analizuoti, atkuriant teksto struktūrą pagal duotąją gramatiką.
        
        Tai vat, ta gramatika, kuri yra -- ji netinka parsinimui, nes ji neturi tokių taisyklių rinkinio, kurios leistų parsinti normalų lietuvišką tekstą, nenaudojant žodyno.
        
        Tai, kad jūs identifikuojate „žalia bananas“ klaidą, tai ne tos gramatikos taisyklių buvimo požymis. Jūs neturite taisyklių, kurios leistų atskirti „žalia bananas“ nuo „krečia mašinas“.
        
        Ir jūs sakote, kad be žodyno krenta tikslumas. Ponas Glow, ne be žodyno krenta tikslumas. O be žodyno išvis nepavyksta.
        
        Ponas Glow, vat jūs man davėte prieš tai linką, kur esą realizacija esą gramatikos. Ir matėte, kad tas daiktas neardo pagal gramatiką, o tik pagal žodynus. Ir jūs dabar pasakojate man vėl tą patį fufelį, kad esą galima ardyti pagal tą esą gramatiką. T.y., faktai jums prieš akis, bet jūs dedate ant faktų.
        
        Ir jūs pasakojate buzwordus, kartu teigdamas, kad nėra kas angliškai gerai generuoja, bet kartu sakydamas, kad lietuvių kalba gramatiką turi. Tokie ambivalentiški fufeliai yra stabilaus kognityvinio disonanso požymis, tarp kitko.
        
        Ir jūs vėl pasakojate man apie indusus, kuriuos spameriai samdo. Bet jums nedašyla, kad kalba ne apie indusus. Kai aš jums sakau, kad eina ne indusų generuoti, o automatų generuoti tekstai, tai supraskite tai pažodžiui ir kaip faktą. Ir kartais, kai botai pastringa, tai pareina su visom tūpom vidinėm struktūrom, paruoštom generacijai.
        
        Čia jums pvz., tūpiausioje formoje: {Glow|Kalbayob|Stupid kalbayob} {is going to be|can be|will be|shall be} {prosecuted|banned|{kicked|punched} {in to {ass|face|head}} {with|using} {{piece of {his own shit|bullshit}facts|killing arguments}|brick|bunch of {shitty trousers|grammar books}} {because of|for his} {stupidly|idiotically|dumbly} {retarded|repeated} {arguing|shitting|rambling}
        
        Suprantate, ponas Glow, man neįdomu jūsų dvasingas įsivaizdavimas. Jei jūs norite ginčytis, tai galvokite. Susiimkite rimtai ir galvokite, nes čia ne nuomonių atstovavimai įdomūs, o problemų analizė.
        
        Ir tai problemų analizei netinka kalbajobinis diskursas iš serijos „mes turime gramatiką, reiškia, mes turime gramatiką, nes jei neturėtume, tai negalėtume vertinti klaidų, o jei jas vertinam, tai reiškia, kad turim gramatiką“.
        
        Ir nustokite čia kišti dirbtinį intelektą, nes net nenujaučiate, kaip juokingai tai atrodo. Žinote kodėl? Todėl kad dirbtinis intelektas ne padeda kalbą parsinti, o būtent pilnavertė natūralios kalbos parsinimo ir transliacijos mašina yra ne kas kita, o dirbtinis intelektas. Tamstai šitai derėtų žinoti. Nes nežinodamas, neįtariate, kokio lygio nukleidėjimus parašote.
        
        Iš kitos pusės, jūs tą dirbtinį intelektą čia vartojate deus ex machine prasme, kas yra visiškai invalidu argumentacijos požiūriu.
        
        Žodžiu, susiimkite, ponas Glow ir bent jau kartoti fufelius apstokit, nes netoleruosiu. Dabar toleruoju tik todėl, kad matau, jog tamstai visgi ta tema įdomi. Bet susiimkite, nes čia nepakanka buitinio įsivaizdavimo.
        
        Reply ↓
  2. Marius 2012/04/02 at 00:01
    
    Kiekviena lazda turi du galus.
    Gal jūs galėtumėte dabar pasakyti kokiais burtų kamuoliais naudojasi teisininkai kai jie rašo, skaito ir interpretuoja įstatymus?
    
    Pilnai su tamsta sutinku, kad anglų kalba yra fantastiška šiuo atžvilgiu (pvz ACTA skaityti yra daug lengviau angliškai nei lietuviškai), ir gal net lietuvių kalbai galima būtų rasti algoritmą, bet vien tik „context-free grammar“ ar automato struktūros neužteks.
    Pagrindinė problema yra ta kad lietuvių kalboje nėra fiksuoto sakinio dalių eiliškumo ir privalomų dalių (kaip kad anglų teigiamame sakinyje visada yra 1-veiksnys, 2-tarinys), tai parseriui nėra už ko užsikabinti, bet tas dalis mes identifikuojame kitaip: pagal linksnius ir formas, taigi visos „gramatikos“ vingrybės glūdi leksemų atpažinime, atskirų žodžių sandaroje, taigi visų pirma reiktų parsinti pačius žodžius atskirai (čia be šaknų žodyno kaip be rankų), o tada galima būtų bandyti derinti kur yra veiksnys o kur pažiminys, aplinkybės, bet ir ten košė, ypač ten kur nėra kablelių 🙂
    
    Reply ↓
    1. Rokiškis Post author2012/04/02 at 00:31
      
      Visose kalbose yra veiksnys ir tarinys. Tik jis nebūtinai išskiriamas į atskirus žodžius su konkrečiomis pozicijomis. Žodyje „einame“ yra ir vienas, ir kitas.
      
      Viskas sutraukiama vienan ženklan. Bet tai nereiškia, kad to negalima išparsinti. Arba kad negalima išparsinti bendro atvejo, tegul net ir nagrinėjant tam tikrus žodžius, kaip sintaksinius (t.y., iš anksto žinotinus) elementus.
      
      Čia galim grįžti prie to paties „čiučiundra skizina faloidus“ -- kažkaip juk suvokiam, kas ką 🙂
      
      Reply ↓
    2. Rokiškis Post author2012/04/02 at 00:35
      
      O atskirai dėl teisininkų -- kai kurie pažįstami žmonės, besikapstantys po tuos visokius įstatyminius aktus, sako, kad kai kurių ES aktų vertimai į lietuvių kalbą yra stebėtinai įdomūs. Kartais netgi tokie įdomūs, kad gaunasi vos ne priešingai, nei originale.
      
      Dar kiti sako, kad tinkamai patepus tinkamus vertėjus, galima kartais nemenkų rezultatų gauti, netgi be jokių lobizmų Seime.
      
      Reply ↓
Renata 2012/03/31 at 15:35

Dėl bazinių siužetų tai gal tamsta turėjot omeny V. Proppo „Pasakos morfologija“? Atrodo, 31 siužeto elementas, 7 veikėjų tipai -- ir visas istorijas galima plius minus sukišt į šitą rėmą.

Reply ↓
1. Rokiškis Post author2012/03/31 at 15:56
  
  Ne, ne šitą turėjau omeny. Carlo Gozzi ir Georges Polti, teigiantys, kad tėra 36 literatūriniai siužetai. Dar XVIII amžiaus idėja 🙂
  
  Bet taip ar anaip, kaip matome, generacija yra tokia generacija 🙂
  
  Reply ↓
Ona near Vilnius 2012/03/31 at 17:23

Kodėl moteris skiriasi nuo kompiuterio?

Moteris nepriima 3 „diskelį.

Reply ↓
1. viz3 2012/03/31 at 19:01
  
  Šiuolaikiniai kompiuteriai irgi nebepriima flopikų. Skirtumų kaip ir nebėr..?:)
  
  Reply ↓
  1. Ele 2012/03/31 at 21:34
    
    Šiuolaikinė moteris puikiai priima diskelius. Iš kur toks moterų diskreditavimas? Dar imame kreditines korteles.
    
    Reply ↓
Botas Arvydas 2012/04/01 at 09:42

Mano intelektas per menkai pažengęs, kad suvokčiau pasekmes ir kas iš to susišluos kokią naudą?

Reply ↓
1. Rokiškis Post author2012/04/01 at 13:42
  
  Kam reikia spamo, reklamos ir propagandos? Kas iš to susišluoja naudą? Tai tie patys ir iš botų susišluos.
  
  Reply ↓
kestutis d 2012/04/01 at 20:36

Šiaip straipsnelyje išsakytos idėjo visai sąmojingos.
Tik dėl lietuvių kalbos gramatikos -- pritariu Glow.
Tai, kad kuriant parsorius, nėra pasiektas anglų kalbos lygis -- tai dar ne įrodymas, kad gramatikos kalba neturi 🙂
Juk ties anglų kalbos parsinimu geriausi pasaulio protai dirba jau 50 metų, kai lietuviai dar tik žengia pirmuosius žingsnius (atitinkamai skirtingas ir skiriamų resursų kiekis).
Ir klaida manyti, kad parsinant įmanoma apsieiti be žodyno (ar tai ‘giluminio žinojimo’ kas yra kokia sakinio dalis:). Visų pirma, anglakalbiai nelabai gerai susitvarko su parsinimo rezultatais -- vienareikšmiško teisingo rezultato negauna, todėl finale vis tik reikalinga žmogaus interpretacija, kuri parsinimo metu išgimdyta struktūra yra teisinga.
Antras dalykas, pats parsinimas be žodyno, kuriame apibrėžtas ‘giluminis’ žinojimas, kas yra kokia sakinio dalis -- irgi neįmanomas. Teoriškai anglakalbiams gal ir galėtų padėti lyg ir griežta žodžių tvarka sakinyje (kas teoriškai turėtų padėti statistiškai numatyti kokį vaidmenį žodis vaidina sakinyje), bet net ir jų kalba pernelyg lanksti, kad vien su tuo apsieiti. Pvz., kad ir perfrazuojant Rokiškio minimą sakinį -- duokit anglakalbiškam parsoriui sakinį „Faloidinė čiučiundra skizina“ -- ir kaip jis susitvarkys be ‘giluminio’ žodyno žinojimo?
Tuo tarpu lietuvių kalba šiuo atveju gali būti net ir palankesnė parsinimui be žodyno -- dėl savo žodžių morfologinių ypatybių, kurios gali būti statistiškai patikimesni rodikliai parsinimui -- pvz., žaidžiant tuo pačiu sakiniu, galime net ir be žodyno pasakyti, kas yra kas sakinyje „Skizina faloidus čiučiundra“ arba „faloidus dabar skizina (beje, šovė mintis, kad dėl to žinomo L.Carroll’o eilėraštuko vertimas į lietuvių kalbą yra žymiai labiau vykęs nei originalas -- dėl morfologinių dalelyčių panaudojimo).
Taigi, Rokiški, tu geriau lietuvišką parsorių kurk, o nesislėpk už to, kad tai neįmanoma 🙂

Reply ↓
1. Rokiškis Post author2012/04/01 at 23:27
  
  Ponas Kęstuti, man giliai vienabybiška, kam jūs pritariate. Jei tamstai atrodo, kad gramatika yra, nors jos nėra ir atitinkamai parsinti nesigauna, tai jūs sakote, kad „tai, kad nėra, tai ne įrodymas, kad nėra“. Jūs pats save suprantate, ar nesuprantate? Jūs paskaitykite, ką tamsta parašėte. Aš rimtai tamstai sakau šitai. Paskaitykite ir pabandykite pats save suprasti.
  
  Apie esą pirmuosius lietuvių žingsnius -- pasiaiškinkite, kiek LKI išleidžia savo kompiuteriniams projektams ir kas gaunasi iš to, tai jums žandikaulis išsinarins. Aš jums tai pažadu. Ir pasiaiškinkite, kaip LKI padeda tas gramatikas kurt, išmesdama tai bandančius daryti žmones, tai jūs atsiprašysite manęs po to už tai, ką čia dabar parašėt.
  
  Ir aš jau nekalbu apie tai, kad kažkokie lietuviai Kaune sugeba padaryti kiniečių kalbos parserį kalbą atpažįstantiems automatams, kurie Kinijoje į telefonų skambučius atsakinėja. Ir nekalbu apie tai, kad kiti kauniečiai dar apie 1970 darė automatinio atpažinimo sistemas Maskvos KGB, kur telefonus per visą miestą klausė ir įsijungdavo pagal raktinius žodžius. Ir aš nekalbu apie tai, kad Algirdas Julius Greimas buvo lietuvis. Ir apie daug kitų dalykų nekalbu. Tamstai atrodo menkas įdirbis?
  
  Tas įdirbis yra visais įmanomais būdais kalbajobų naikinamas. Būtent tų kalbajobų, kurie galvoja, kad tas daiktas, kurį jie vadina gramatika, yra gramatika. Taip kad nepasakokit man fufelių apie mažą lietuvių kalbą, kur tik dabar kažkas kažką pradeda, o pas anglakalbius jau mat 50 metų.
  
  Čia jums paskaitymui šis tas, apie įdirbį ir gramatikas -- http://rokiskis.popo.lt/2011/04/27/kalbainiu-utelyna-atidengus/
  
  Apie likusią dalį, esą teoriškai gal ir kažkas padėtų, blablabla, be žodyno -- jei tamsta gramatikos neskiriate nuo žodyno, tai jūs išvis ką čia rašinėjate? Kodėl jūs atėjot čionai kliedesių rašinėti, a? Jūs gramatiką nuo žodyno išmokite atskirti, o tada ir nereiks rašinėti nesąmonių.
  
  Apie tai, kad esą lietuvių kalba palankesnė parsinimui be žodyno -- jūs gal trenktas per galvą lietuvių kalbos vadovėlių ryšuliu? Net nepaisant to, kad tamsta teisingai pastebėjote, jog ne sakinio pozicija, o morfologija leidžia atpažinti, aš spėju, kad jūs gal netgi ne kartą trenktas tų vadovėlių ryšuliu.
  
  Bet tai visvien, KPŠ??? Kažkokie kalbainiai pas mane eina ir rašo šūdus. Mažai baninau matyt.
  
  Ir beje, parseris, o ne parsorius.
  
  Reply ↓
kestutis d 2012/04/01 at 20:38

nusimušė sakinys: „čiučiundra skizinusi faloidus dabar skizina faloidines čiučiundras“

Reply ↓
:] 2012/04/02 at 07:45

o bet tai visgi tačiau, prie ko čia Landsbergis jaunesnysis? Kad rašyt moka? Ar kad šiaip, patogu ir populiaru, įspirt pro šalį einant vien už pavardę?

Reply ↓
1. Rokiškis Post author2012/04/02 at 11:51
  
  Skaitėte ką nors iš jo pasakų? Jos visiškai dviprasmės. Kol kas nėra priemonių, kurios leistų automatams dirbti su daugiaprasmiškumais. Jie visi monodiskursiniai. Vytautas Landsbergis Jaunesnysis -- tiesiog visiškos priešingybės demonstruotojas.
  
  Reply ↓
Brauninkas 2012/04/02 at 13:35

Kiekvieną dieną kompiuteriai vis patobulėja. Anksčiau ar vėliau ateis ta diena, kai robotai ar kompai bus visur -- pradedant gamyba, aptarnavimo sfera ir pan, ir baigiant meno kūryba, techniniu projektavimu ir kita intelektualine veikla. Kada nors kompai susidoros ir su dviprasmiškais tekstais, gal net geriau nei dauguma žmonių. Manyčiau, tai tik laiko klausimas. Nes kompiuterių galimybės praktiškai yra apribotos tik technologijų pasiekimais, o pastarieji nuolat juda į priekį, ko nepasakysi apie žmones. Bent jau kol kas.

Reply ↓
1. Rokiškis Post author2012/04/02 at 15:13
  
  2012 metų Gegužės 22 dieną bus pasaulio pabaiga.
  
  Reply ↓
  1. Brauninkas 2012/04/02 at 16:46
    
    Tų „pasaulio pabaigų“ jau tiek buvo, kad viena daugiau ar mažiau -- koks skirtumas? 🙂
    Kita vertus, visuotinė kompiuterizacija tikrai smarkiai keičia žmonių gyvenimo būdą: bendravimą, laisvalaikio leidimą, darbo pobūdį ir t.t.
    Kartais tai įgauna groteskiškų bruožų: pvz sėdi bernai ir mergos kiekvienas savo namuose prie kompo, o čatina per FB, vietoje to, kad tiesiog susitiktų. Nors gyvena tam pačiam kvartale (kartais netgi tame pačiame bute).
    Nors blin, ir seniau pasitaikydavo panašių išsidirbinėjimų -- pvz žmona ir vyras, nesikalbantys, o bendraujantys rašteliais ar pvz per tarnus.
    
    Reply ↓
  2. Brauninkas 2012/04/02 at 16:57
    
    Beje, žiūrint iš žinutės gavėjo (pvz blogerio) pusės -- o koks skirtumas ar spamą siunčia botas, ar samdytas žmogus? Pvz senovės Romoje visokiai rutininei rašliavai buvo naudojami raštingi vergai, o iki kompiuterizacijos eros -- samdomi darbuotojai.
    Bet iš esmės -- koks skirtumas?
    
    Reply ↓
    1. Rokiškis Post author2012/04/02 at 18:18
      
      Botus lengviau visgi nufiltruoti, nei samdytus žmones. Bent jau kol kas. Kita vertus, botų eina milžiniški kiekiai, tiek žmonių neprisamdysi.
      
      Bet iš esmės -- jokio skirtumo.
      
      Reply ↓
Karvė 2012/04/02 at 17:47

Norėčiau aš paprašyti Rokiškio paaiškinti man kvailam gyvūnui: kokie būtent anglų ir lietuvių kalbos skirtumai lemia, kad anglų kalba turi formalią gramatiką, o lietuvių ne?

P.S. neginu kalbainių, man čia labiau idomu iš computability/programavimo pusės.

Reply ↓
1. Rokiškis Post author2012/04/02 at 18:08
  
  Sintetinė ta lietuvių kalba. Skirtingi prasmingumo aspektai jungiami vienam žodyje, vietoj to, kad būtų skaidomi. Rezultatas toks, kad jei ir galime spėti apie kažkokią gramatiką, kuri yra mūsų galvose, tai ta gramatika yra pakankamai kompleksiška, kad nesigautų didžiosios jos dalies suvesti į keletą paprastų taisyklių. Tai, matyt, ir lemia labiausiai.
  
  BTW, formaliai efektinga anglų kalbos gramatika irgi ne šiaip sau atsirado -- Noam Chomsky darbai daugiausiai nulėmė. Iki tol jie turėjo tokią gramatiką, kuri buvo irgi ne tiek gramatika, kiek kažkokia beliberda. Bet Noam Chomsky darbus mūsų kalbainiai ignoruoja, aiškindami, kad lietuvių kalba ne tokia ir jai tai netinka.
  
  BTW-2, ta senovinė anglų gramatika iki šiol berods naudojama, kaip pagrindas mūsų mokyklose anglų kalbos mokymui bei egzaminams. Rezultate gaunasi tokie čiūdai, kai padorūs anglų kalbos dėstytojai paskui duoda užduotis -- rasti valstybiniuose anglų kalbos egzaminuose klaidas, kurias padarė egzaminų kūrėjai 🙂
  
  BTW-3, tų klaidų būna daug. O už egzaminų kūrėjų klaidų nežinojimą mokiniams paskui pažymiai kertami.
  
  Reply ↓
  1. Karvė 2012/04/02 at 20:29
    
    Noam Chomsky reikės pasidomėti plačiau, kiek užmečiau akį, idomus mokslininkas.
    
    Aš be abejo surizikuosiu nusišnekėti, bet ar tamsta kalbi apie formalią gramatiką, kuri taikoma raidėms, ar kuri taikoma žodžiams? Kitaip tariant, koks yra alfabetas?
    
    Reply ↓
    1. Rokiškis Post author2012/04/02 at 21:24
      
      Aš net nežinau, ką tamstai atsakyt, nes nesupratau nieko, ką tamsta klausiat.
      
      Reply ↓
    2. Karvė 2012/04/02 at 22:02
      
      Na gerai, aš čia gal kitaip pabandysiu prieiti prie klausimo. Tarkime, kad anglų kalba turi formalią gramatiką. Tuomet turi būti kažkoks įrodymas (pvz rinkinys taisykliu, pagal kurias galima sugeneruoti visus kalbos žodžius). Tas įrodymas neturėtų būti paslaptis, tai vat ir būtų įdomu nuoroda į jį.
      
      Aišku aš Google naudotis moku, ir vat radau keletą tokių nuorodų (http://able2know.org/topic/30765-1, http://stackoverflow.com/questions/4197751/is-there-a-formal-grammar-for-english-language), kur žmonės naiviai klausia to paties, bet gauna nusivilti. Taigi man rodos anglų kalba neturi formalios gramatikos.
      
      Bet jei mano išvada teisinga, tai reiškia botai turinį generuoja iš kažkokios anglų kalbos gramatikos aproksimacijos (kaip kad antrojoje nuorodoje), bet tuomet reiškia, kad ir lietuvių kalbai turbūt galėtų būti parašyta panaši aproksimacija (aš jei mokėčiau rusiškai čia dabar eičiau ieškoti analogiškų klausimų rusų kalba, bet deja nemoku), tačiau tai padaryti būtų gerokai sudėtingiau, taigi ir brangiau, o lietuviškai kalbanti rinka juokingai maža, kad tai apsimokėtų daryti vien dėl SEO ir reklaminių komentarų. Aš manau čia yra pagrindinė priežastis, kodėl botai nekalba ir greitai dar nekalbės lietuvių kalba.
      
      Reply ↓
      1. Rokiškis Post author2012/04/03 at 14:21
        
        Sugeneruoti visus kalbos žodžius -- tai kaip suprantu, tamsta turite omeny visas žodžių formas, o ne visus žodžius. Taip, tokie rinkiniai yra ir rašybos tikrinimo programos juos naudoja. Ir lietuvių kalbai irgi yra.
        
        O vat jei kalbėsim apie tai, kaip sugeneruoti pačias žodžių šaknis, tai čia tenka susidurti su tuo, kad natūralios kalbos yra tokios natūralios, o žodis tėra ženklas.
        
        Dėl formalios gramatikos -- visiškai visko formalizuoti natūralios kalbos atveju gal ir nelabai įmanoma, nes kalba yra generatyvi savo esme (žmonės kuria ir žodžius, ir taisykles patys), tačiau tai nėra labai jau toli nuo pilnai formalios. Galima sakyti taip, kad įprastus mokyklinius anglų kalbos tekstus išparsinti gaunasi normaliai, išimtis -- frazeologizmai.
        
        Iš kitos pusės žiūrint, Larry Wall (kuris, beje, pirmiausiai lingvistas) su Perl realizacija gana įdomiai padirbėjo -- gramatika mišri, atsparumas klaidoms ir kontekstinis interpretavimas. Žodžiu, kažkas panašaus, ką žmonės turi savo kalboje.
        
        Vat dėl kitko, ką reiktų turėti omeny -- yra du skirtingi, nors ir labai susiję dalykai: generacija ir parsinimas. Generacija -- tai teksto generacija, turint žodyną ir gramatinę struktūrą. Arba ir struktūros generacija, turint gramatiką. Parsinimas -- tai tos struktūros atkūrimas.
        
        Praktikoje su generacija žymiai paprasčiau. Paprastuoju atveju galim imti netgi kietas struktūras ir pagal jas generuoti tekstus.
        
        O dėl botų nekalbėjimo lietuvių kalba -- kalba jie, tik prastai 🙂 Yra visai kitas priėjimas čia: vietoj to, kad kapstytis po gramatikas, galima sukišti žodyną, kelias dešimtis sakinio struktūrų ir pagal inputą su žodynu parinkti žodžius, su kuriais generuoti kažką ant gatavos struktūros. Žodžiu, paprastuoju būdu.
        
        Visai kitas reikalas, kad tokios klasikos, kaip paprastasis Eliza botas, lietuviškai berods nesigavo niekam padaryti. Bent jau nemačiau ir negirdėjau. Kas gaudavosi, tai būdavo truputį kitos rūšies botai, pagal žodynus dirbantys ir ant gramatikos dedantys.
        
        O dėl to, kad rinka juokingai maža ar pan. -- ne tame esmė. Sakyčiau, didžiausia problema yra kalbainių stagnacijoje. Jiems nereikia pokyčių, jiems nereikia mokslo, jiems tik reikia stabilumo. O nauji darbai, kurie patį jų egzistavimo pagrindą gali pajudinti, jų supratimu yra blogis. Natūralu, tiesa? 🙂
        
        Reply ↓
kestutis d 2012/04/03 at 07:14

Tai čia dabar toks tavo pasiteisinimas, Rokiški? Tipo tam tipeliui, Greimui, neišėjo sukurti parseriaus (atsiprašau už ‘parsorių’, jūsų kalbainybės), tai tipo ir tau neišeis? O tai jei anam Chomskiui išėjo, tai čia tipo jį tik anglų kalba išgelbėjo, o tu, vargšas, tokiose sąlygose gyveni, kad niekaip nė pro kokius galus nepayvks parseriaus padaryti?
Beje, tikriausiai ir pats žinai, kad pritaikant Chomskio idėjas botams, paaiškėjo, kad botai sugeba įžvelgti gerokai daugiau dviprasmybių (triprasmybių, penkiaprasmybių ir daugiaprasmybių), kurių paprastai žmonės neįžvelgia (gražus pavyzdys: Time flies like an arrow)

Reply ↓
1. Rokiškis Post author2012/04/03 at 13:58
  
  Ponas Kęstuti D., kadangi tamsta pradedate užsiimdinėti žodine tryda, tai siunčiu tamstą naxui. Tenai eikite savo noru, nes jei nueisite ne savo noru, tai nesidžiaugsite.
  
  O dėl dviprasmybių -- tamstai reiktų skirti, kur botas šiaip pataiko, o žmogus įžvelgia dviprasmybę, o kur žmogus sąmoningai sukuria dviprasmybę.
  
  Reply ↓
Kalbajobnutas skaitytojas 2012/04/03 at 09:40

Žinau vieną doktorantą, kuris baiginėja rašyti disertaciją su text-rotatorium. Rimtai.

Reply ↓
1. Rokiškis Post author2012/04/03 at 14:26
  
  Ta prasme, kad randomu frazes varo? Puikus.
  
  Ar galima plačiau būtų apie patį metodą iš praktinės pusės? Pagal ką parenka frazių sąrašus? Pagal ką žiūri, ar tinkamai susigeneravo? Čia man labai įdomu.
  
  Reply ↓
  1. Kalbajobnutas skaitytojas 2012/04/03 at 15:09
    
    Triukas toks: kadangi disertacija rašoma angliškai, ima konkurentų straipsnius, sukompiliuoja pagal savo temą, perdirba su text rotatorium, kuris ten keičia sakinių gramatinę struktūrą, žodžius į sinonimus ir pan. Galiausiai pasiredaguoja, kad natūraliau ir nuosekliau skambėtų ir turi plagijatą, dėl kurio plagijuotumo nei šuo nesulos (ypač kai dauguma šunų persenę ir nori kad bent kažkas tas disertacijas rašytų).
    
    Realiai atsekti galima tik pagal subjektyviai suvokiamą stiliaus ir terminų nenuoseklumą. Bet įrodyti plagijavimo kaip ir nėra šansų.
    
    Reply ↓
    1. Rokiškis Post author2012/04/03 at 15:48
      
      O, tai čia ne šiaip jau koks rotatorius. Čia visai padorus daiktas jau 🙂
      
      Ir plagiatu šito negalima pavadinti -- tai greičiau automatinė mokslinio darbo generacija, panaudojant ekspertinę kitų mokslinių darbų duomenų bazę 🙂
      
      Reply ↓
kestutis d 2012/04/03 at 22:29

Jūsų, ponuli, naratyvas matyt per trumpas? 😀

Apšvieskit savo šviesa, kaip išparsinti šiuos kelis sakinukus:
mice swear sometimes
sometimes mice swear
swear sometimes mice
mice sometimes swear
sometimes swear mice

O dėl botų sąmoningumo tai tikrai nesiginčiju. Tik kad jie daugiaprasmybes daug dažniau nei žmonės įžvelgia (matuok museles…laiko museles…)

Reply ↓
1. Rokiškis Post author2012/04/04 at 00:08
  
  Ponas Kęstuti, o jums kartais neatrodo, kad jūs rašėte lietuviškai, tik žodžius sukaitaliodamas į angliškus? 🙂
  
  Ai, bet nesvarbu, tamsta pakliuvote į naxui, nes nepaklausėte mano patarimo.
  
  Reply ↓
kestutis d 2012/04/04 at 09:10

Dėl vieno sakinuko aš ir pats abejoju. Tačiau dėl kitų -- galima ginčytis. Būtų gerai pasiimti ką nors teisėju -- kas geriau anglų kalbą išmanytų.
(Ribota mano fantazija kol kas neleidžia įsivaizduoti parsinimo be žodyno. Labai norisi prasiplėsti akiratį. Pagelbėtų ir tinkamos nuorodos. Pastaroji, kurią perdavėte -- pernelyg jau abstrakti 😀 )

Reply ↓
1. Rokiškis Post author2012/04/05 at 01:51
  
  Kadangi tamsta grįžote, o iš pakitusio tono suprantu, kad tamstai nebuvo lengva, tai čia aš dabar tamstai taip pasakysiu: teisėju savo bloge esu aš.
  
  Bet grįžtant prie tamstos pavyzdžio -- taip, anglų kalboje irgi ne visada gaunasi apsieiti be žodyno. Tai juk natūrali, o ne formali kalba. Ir taip, čia yra viena problema su gramatika, tik ji formuluojama kitaip: ar gali praktinė gramatika būti pilnai atsieta nuo ženklų sistemos, o ženklų sistema -- pilnai atsieta nuo gramatikos. Kol kas, kiek žinau, tam klausimui sprendimo lyg ir nėra.
  
  Kita vertus, man labai įdomu sužinoti, ar tamsta sąmoningai rašėte tuos sakinius. Nes tame slypi reikalas, kuris prieštarauja tamstos bandymams prieštarauti. Tie sakiniai anglų kalboje yra visiškai skirtingi. Tuo tarpu lietuvių kalboje visi jie būtų tas pats galas. Taip kad nesuprantu, ką tamsta norite pasakyti.
  
  Jei tamsta bandote šitaip tiesiog užvelti diskusiją ir pritrolinti, tai aš tamstai nepatariu to daryti, nes taip gaišinate svetimą laiką, o mano paprastą požiūrį į tokius bardakus žinote.
  
  Grįžtant prie tų sakinių.
  
  Kai gaunasi nustatyti, kur yra veiksnys, o kur tarinys -- tai daug kas gan paprasta. Kai nesigauna -- jau žymiai sudėtingiau.
  
  Bet čia pažiūrėkim iš paprastosios pusės: parsinimas -- tai atvirkščias procesas generacijai. Transformacija pagal Chomsky čia veikia visame gražume, taigi, generuoti tamstos sakinius galime laisvai.
  
  Taigi, apsukant generaciją, klausimas telieka toks: ar galime bendru atveju nustatyti, koks ten yra sakinio tipas. Paimkite paprastesnį variantą, kur ne aplinkybė naudojama, o paprastas veiksmo objektas (A daro B):
  
  Mice eat cheese.
  
  Galim nesunkiai primesti, kad rinkinukas gramatinių taisyklių, leidžiančių išparsinti šitą sakinį, gautųsi visai paprastas. Patransformavę į kitus sakinius ir pažiūrėję, galime gauti kažkiek sudėtingesnių, gal mažiau patikimų, tačiau visgi veiksnių taisyklių.
  
  Eat cheese. More cheese.
  
  Problema tokia, kad su lietuvių kalba nesigauna netgi pagrindo padaryt. Dėl žodžių morfologijos mes čia turim kiek lengvesnį žodžių funkcijų identifikavimą be žodyno, bet ar šunys muša kates, ar katės muša šunis -- bendru atveju nustatyti sudėtinga, net kai sakinys yra bukas. Netgi kai sakinyje tėra vien tik veiksnys ir tarinys.
  
  Čia paprasčiau net verta pažiūrėti: sakykim, yra sakinys paprastasai, turintis paprastąją semantiką. Iš serijos „šunys keikia peles“ ar „katės muša šunis“. Ar galime nustatyti formalių taisyklių rinkiniu, kuris žodis kokią čia funkciją turi?
  
  Anglų kalboje bus „veiksnys tarina objektą“. Lietuvių kalboje bus KPŠ ir tada su tuo KPŠ užsikasinėsime morfologijose, o ar su tomis morfologijomis gausime bent kiek rišlesnį rezultatą -- čia galim daugiau spėliot.
  
  ————
  Ir turiu vieną prašymą: išmokite atsakinėti į komentarus, o ne bendrai į visą straipsnį. Nes kitaip gaunasi bardakas, o jei dar kažkas įsiterps, tai bus išvis neįmanoma suprasti, ką rašote. Komentarų struktūra nesiparsinanti.
  
  Atsakyti konkrečiai į komentarą galima, paspaudus „Atsakyti“, esantį tiesiai po komentaru.
  
  Reply ↓
  1. kestutis d 2012/04/05 at 22:48
    
    Sakinius, žinoma, parašiau sąmoningai – stengiausi sukurti pavyzdį, kuriame veiksnio ir veiksmažodžio vieta nebūtų taip lengvai nuspėjama, kaip kad kai kurie mano (stengiausi net išnaikinti likutinius morfeminius požymius, pagal kuriuos būtų galima atspėti vienaskaitinį veiksmažodį ar daiktavardį daugiskaitoje).
    Žinoma, mes galime palikti nuošalyje imperatyvinius sakinius, kaip nelabai būdingus tekstui (ir leisti parseriui, dirbančiam be žodyno, kai kuriais atvejais klysti) ir naudotis taisykle “veiksnys tarina objektą” (imperatyvų atsisakymas tikrai palengvintų šios taisyklės taikymą, nes veiksmažodis negalėtų būti pirmas – paneigimo tam kol kas nesugalvoju). Bet ir tada liktų gana daug problemų, kurių nelabai įsivaizduoju, kaip spręsti be žodyno pagalbos. Pavyzdžiui, kad ir tie patys dažnumo prieveiksmiai (naudoti pavyzdyje), kurie gali įsiterpti tarp veiksnio ir veiksmažodžio (arba šokinėti į galą arba į priekį). Bet tiek to su jais – jų nėra tiek daug, ir galime juo sudėti į atskirą pagalbinį žodinėlį, kuris leistų parseriui identifikuoti tokias išimtis. Tačiau liktų dar viena didžioji problema – būdvardžiai, kurie keičia veiksnio ir tarinio poziciją sakinyje (ką jau bekalbėti apie ‘objektą’):
    Mice eat cheese.
    Dumb mice eat cheese.
    Very dumb mice jump on cheese.
    
    Jei dar pridėsime tą faktą, kad kai kuriems veiksmažodžiams nereikia ‘objekto’, padėtis komplikuojasi visiškai. Štai trijų žodžių sakinys, kuriam taisyklės ‘veiksnys tarina objektą’ nebeišeina:
    
    Dumb mice crie.
    
    O jeigu prie to dar pridėsime, kad vietoj objekto galime įkišti prieveiskmį – ir ne lengvai atpažįstamus dažnumo ar laiko, o manieros, kurių praktiškai yra tiek, kiek būdvardžių, tada gausis:
    
    Dumb mice crie weirdly
    
    O jei dar prisiminsime, kad galime naudoti sudėtinius sakinius, tada padėtis komplikuojasi visiškai
    Weird cheese mouse ate stinks.
    
    Taigi, paprastos veiksnio-tarinio-objekto pozicijos taisyklės pritaikyti neišeina. Pabandymui galima paimti paprastą pavyzdį – einu pas Račą į blogą, ten imu pirmą pasitaikiusią nuorodą anglų kalba iš jo skyrelio „Man patiko“ (pasitaikė „Pressure Builds in Russia-Ukraine Pipeline Row“) ir išnagrinėju pirmus dvidešimt straipsnelio sakinių, ieškodamas kada veiksnys užims pirmą vietą sakinyje, tarinys – antrą, o objektas – trečią.
    Taip darydamas aš bandysiu kurti sudėtingesnę kiek sistemą ir skaičiuodamas žodžių pozicijas:
    -- ignoruosiu determinerius (artikelius ir panašius – sakykim jų yra mažai, ir juos galima įtraukti pagalbinį mini žodynėlį, kad parseris juos atpažintų)
    -- ignoruosiu laiko ir dažnuminius prieveiksmius (irgi tarsim, kad jie įtraukti į pagalbinį mini žodynėlį)
    -- lygiai tą patį darysime su prielinksniais (of on ir pan.).
    -- veiksmažodžius su pagalbiniais veiksmažodžiais skaičiuosime kaip vieną veiksmažodį (tokių kaip have, had, will, do, can ir pan.)
    -- kaip naujus skaičiuosime pridėtinius sakinius, kurie prasideda kableliu arba that, because, when, if, as, but (ir tuo pačiu ignoruosime tuos pačius žodelius jei jie bus sakinio priekyje)
    
    Tokio eksperimento rezultatai mane patį nustebino – toks paprastutis parseris veiktų visai neblogai – 15 atvejų iš 20 jis teisingai identifikuotų veiksnį. 13 atvejų – teisingai identifikuotų tarinį. O objektą – tik 4 atvejais iš 20. (Žinoma, taip skaičiuodamas dariau šiokias tokias nuolaidas, nes gaminant parserį reikėtų įvesti gerokai daugiau taisyklių, nei dabar apsirašiau, nes kai kurie atvejai buvo abejotini, bet stengiausi interpretuoti parserio naudai). Taigi, tam tikrų pretenzijų parseris besiremiantis vien tik žodžio užimama vieta sakinyje galėtų turėti, jei jus toks tikslumas tenkina.
    Žinoma, problemų galėtų kilti, jei rašantysis mėgtų naudoti apibūdinimus ir epitetus – nuo to nukentėtų veiksnio (o tuo pačiu ir tarinio) identifikavimo tikslumas.
    Tačiau žodyno naudojimo idėjos aš nenoriu atsisakyti. Jūs rašote, kad ‘kai gaunasi nustatyti, kur yra veiksnys, o kur tarinys – tai daug kas gana paprasta’, bet čia greičiau ir yra esminis sunkumas – nustatyti, kur yra veiksnys, o kur yra tarinys. Ir žodyno naudojimas čia žymiai palengvintų reikalą. Ir čia jūsų nuomonė apie generaciją kaip atvirkščią pavyzdį parsinimui, kaip tik tinka šitai idėjai: tame pavyzdėlyje, kurį jūs davėte apie tūpiausios formos generavimą ({dumb|dalbayob|stupid yob} {mice|rat|rokiskis} {swear|eat|shit|crie} {etc}) juk ir panaudojamas žodynas, kuriame ir nusakoma, kokį vaidmenį sakinyje gali užimti žodis. Be šito greičiausiai nebūtų įmanomas joks generavimas, nes kaip generuoti iš rinkinio niekaip neapibrėžtų ir nesutagintų žodžių – to jau tikrai niekaip neįsivaizduoju. Vadinasi, žodynėlis turi būti. Tai kodėl jo nepanaudojus parsinimui? Tai gerokai palengvintų reikalą ir padidintų tikslumą. Žinoma, tai būtų jūsų taip niekinamas visų leksemų sudėjimas į vieną žodyną, pažymint kas kokį vaidmenį gali atlikti – tokiu atveju tarinys būtų labai lengvai atskiriamas nuo veiksnio ir objekto. O lietuvių kalbos atveju tai išvis leistų padidinti tikslumą nepriklausomai nuo žodžių išsidėliojimo tvarkos. Schemą galėtume taikyti tą pačią – Veiksnys-tarina-objektą. Pvz., tik atitinkamos žodžio ‘šuo’ formos kaip ‘šuo’ ir ‘šunys’ gali užimti veiksnio vietą, jei naudojamos formos ‘šunį’ ‘šunis’ -- jos gali užimti tik objekto vietą. Ir tada net sakinys ‘šuo muša šunis’ ar ‘šunis muša šuo’ – nebūtų problematiškas. Čia spėju, kad net Glow minėtas žodžio dviprasmiškumo pavyzdys ‘skatina’ nebūtų toks jau problematiškas – tiesiog turėtų du tagus, kuriuos parseris pabandytų abu pritaikyti, ir tik gavus nuosekliai išbaigtai sakinio struktūrai pasirinktų tai struktūrai atitinkantį tagą, arba, jei jau taip būtų – pasiūlytų dvi sakinio struktūras (reikės dar pagalvoti ir pabraižyti medžius, kaip čia būtų).
    
    Reply ↓
    1. Rokiškis Post author2012/04/05 at 23:46
      
      1(mice) 2(eat) 3(cheese)
      1(4(dumb) mice) 2(eat) 3(cheese)
      1(5(very 4(dumb)) mice) 2(eat) 3(cheese)
      
      Čia dar vertėtų prisiminti lenkišką notaciją. Ir pažiūrėti, kaip gaunasi, jei gauname mišrų variantą -- klasikinę ir lenkišką permaišytas.
      
      Primeskite taip: yra ženklas, kaip funkcija, kuri yra stekinė. T.y., parsinimo metu mums reikia išskirti pirma bazines funkcijas (veiksnys, tarinys, objektas), tada jau jas išskaidyti, o jei jos sudėtinės -- tai jų dalis išskaidyti, o po pilno išskaidymo surinkti atgal į gatavą medį. Plg. su tuo 4,5 iš 1.
      
      Antroje sekoje matome štai ką:
      1(3(dumb) mice) 2(crie)
      1(3(dumb) mice) 2(crie 4(weirdly))
      
      Aišku, klausimas, ar įmanoma visada identifikuoti atitinkamas bazines struktūras ir pilnai išskaidyti, išvengiant žodynų. Ir dar daugiau, klausimas yra net ir toks: ar visada net ir su žodynu galime išparsinti?
      
      Bet va čia ir prieiname prie praktinės teorijos ir kardinalaus (ne teorinio „blablabla, o kas jeigu ne viskas idealu“) klausimo: ar tam tikra teorija yra produktyvi?
      
      Duotuoju atveju produktyvumas tereiškia vieną dalyką: ar paprastosiomis priemonėmis mes galime parsinti paprastuosius tekstus paprastuoju būdu?
      
      Paprastuoju -- tai reiškia, kad praktiškai įgyvendinamu. Taip, kad vat paėmei ir parsini, tegul ir su klaidom, bet produktyviai.
      
      Praktiškai įgyvendinamu -- tai reiškia, kad būtų ne teoretizavimai apie visų leksemų žodynus, kur galim dar užsimanyti, kad būtų sinonimų sąryšiai, semantiniai klasteriai ir t.t., o visą tą reikalą darytų kažkas stebuklingo. Tai tiesiog reiškia, kad paėmėm rinkinį bazinių struktūrų, sudėliojom jų sąryšius, sudėliojom testus atitikčiai, kas susitestavo gerai -- tas išparsinta, kas nesusitestavo -- tą pabandom gal ir su žodynu -- vat ir veikia. O kas neveikia -- tai eksperimento paklaida. Vat taip ir turime, kai sakant, praktinę gramatiką.
      
      BTW, tie mini žodynėliai, kur pas tamstą (pvz., will, have, of, do) -- tuose žodžiuose yra sakinio struktūrą ir žodžių tarpusavio sąveiką nešantis funkcionalumas, t.y., gramatinė apkrova, todėl tokie yra atskira klasė, distinktyvi nuo kitų ženklų. Anuos drąsiai galit į gramatiką dėt. Kokiame nors Pascal kokie nors panašūs žodžiai irgi ne bibliotekose guli, o kalbos apibrėžime, t.y., gramatikoje (pvz., do, if, then, while, for, begin, end).
      
      Kur tamsta minite generaciją iš minėto pavyzdžio -- žodynas tėra duomenų bazė, kur yra klasifikuoti ženklai. Tas pavyzdys iš praktinio spamerių softo, t.y., žodynai pas juos kalami į generacines struktūras tiesiai -- dėl paprastumo.
      
      Generatorius žodžius iš žodyno ištraukia pagal požymį ir kiša į struktūrą, pagal poreikį transformuodamas ženklus. Tuos žodžius galite pakeisti į funkciją: {random(cluster1)}{random(cluster2)}{random(cluster3)}, o pats žodynas čia nieko nereiškia -- giliai dzin, kas jame yra.
      
      Clusher zoidly frebids gunpers of nant.
      
      Taigi, tamstos prielaida dėl žodynų poreikio yra kryptinga, atitinkamai -- nėra pilnai validi, nors ir pozityvi (t.y., duodanti rezultatą).
      
      Dar dėl tų žodynų, tai žinote, su tomis praktinėmis lietuviškomis realizacijomis, kur aš susidūriau, tai taip ir daroma: bukuoju būdu čekini, kur kokie žodžiai, tada bukuoju būdu generuoji ką papuola pagal gatavas struktūras ir tada gal ir pataikai, o jei nepataikai, tai jau ką padarysi.
      
      Bet tai jau yra ne gramatiniai metodai, o kažkokia beliberda, nes jei tik pavyksta atpažint kokį nors daiktavardį ir veiksmažodį sakinyje, tai rezultatas statistiškai gaunasi jau gana pakenčiamas ir skambantis nelyg kokio žmogaus parašytas.
      
      Jei matėte kada legendinio Karpienio rašliavas -- tai panašiai galėtų parsinti ir generuoti itin gerai atidirbtas begramatikinis kalbinis botas, veikiantis grynai pagal žodynus ir generuojantis pagal neaišku ką.
      
      Reply ↓
boletas-trololo 2012/04/05 at 08:25

Va čia tai lygis, va čia tai diskusija! O ne storo dauno sapalionės panašia tema „protokoluose“.

Reply ↓
1. Rokiškis Post author2012/04/05 at 12:12
  
  Tasai storas daunas yra protingesnis už mane, tarp kitko.
  
  Reply ↓
Boletas 2012/04/06 at 00:55

Nuvejau in restorana, sueddziau hamburgeri. Tas buvo neblogas. viespatie, koks tas asilas klaikus.

Reply ↓

Rokiškis Rabinovičius

Aš esu Rokiškis Rabinovičius ir būsiu Visatos Valdovas. Čia jums ne kokia vieša vieta, čia skirta tik tiems, kam aš leidau.