Hasiera
Apliak
Euskararen formula matematikoaren bila

Euskararen formula matematikoaren bila

2007(e)ko abenduak 13

min 1 baino gutxiago

Bere garaian erabat liluratuta utzi ninduen Vicent Partalek, Vilawebeko arduradunak, berriro hurbildu da gure inguruotara, ARGIAren urteurren ospakizunera. Tamalez, ez nuen bertan egoteko aukerarik izan, baina atzo tartetxo bat hartu nuen ARGIAkoek eskegi duten hamar minutuko bideoa ikusteko. (Pazientzia behar da, bide batez… irudiak mantso samar kargatzen dira eta).

Katalanaren presentzia interneten ziurtatzeko lehenengo pausuetatik .cat domeinura egindako ibilbidea azaltzen du Partalek bideoan. Euskal Herria 2.0 jardunaldietan askoz azalpen luze eta mamitsuagoa eman zuen Partalek kontu horren inguruan, besteak beste Iturrik bere blogean jaso zuen bezalaxe.

Dena den, bada hamar minutuko bideotxo horretan pausari eman eta ‘errebobinatzeko’ gogoa eman didan pasartetxo bat. Katalanak bilatzaileetan presentzia izateko oinarri-oinarrizko pausua hizkuntza identifikatzeko formula matematikoa izan zela dio Partalek. Formula zehatz bat da, makinari edozein testu emanda, katalanez dagoen ala ez jakiteko modua ematen diona.

Eta hor, bideoaren bigarren minutuaren bueltan dio Partalek argitxoa piztu didana: formula hori asmatu zuenak, Pompeu-Fabra Unibertsitateko Lluis de Yzaguirrek, formula komunitateari oparitu zion. Aberats zitekeen horrekin,baina oparitu egin zuen.

Oso oker ez banago, euskararen gaineko formula matematiko horixe izan da Elebila sortzeko erabili dutena. Eta noski, galdera berehala etorri zait burura: Euskara identifikatzeko formularik badago eginda? Baldin badago, librea al da? Badago aukerarik hori bilatzaile handien jabeei eskaini eta euren produktuen barruan txertatzeko? Euskarazko softwarearen inguruko komunitateak zer irabazi eta/edo zer galduko luke hori eginda?

Etiketak:

Gari

Gari

2007(e)ko abenduak 13 at 07:52

Noski baietz, Lluis de Yzaguirre berak asmatua gainera! Aurkiren lehenengo garaietan erabiltzen genuen:

Begiratu Aurkiren bertsio zahar honetan azkeneko zatiko formularioetan

Baina oso emaitza kaxkarrak ematen zituen! :-)

Reply
Gari

Gari

2007(e)ko abenduak 13 at 07:53

Ahaztu zait: konturatu zein zaharra den, bilatzaileen artean ez zegoela Google! ( 2001eko martxokoa da )

Reply
Igor Leturia, Elhuyar Fundazioko I+G saila

Igor Leturia, Elhuyar Fundazioko I+G saila

2007(e)ko abenduak 13 at 09:11

Horrelako formulek baino, gaur egun, hizkuntzak identifikatzeko hobekien funtzionatzen duten metodoak karaktere-trigramen edo/eta hitzen maiztasun-zerrendetan oinarritutakoak dira. Hizkuntza bakoitzarentzat, corpus bat erabiliz, zerrenda bat ateratzen da karaktere-trigrama edo/eta hitz maizenekin eta bakoitzaren maiztasunekin. Gero dokumentu baten hizkuntza asmatzeko dokumentuaren maiztasunen zerrenda ateratzen da eta hizkuntzenekin konparatu, ea bat edo batekin antzekotasun minimoa duen.

Horrelako tresnetan ziurrenik ezagunena eta erabiliena TextCat izango da (http://www.let.rug.nl/~vannoord/TextCat/), beste aukera batzuk orri horretan bertan dagoen lehiakideen zerrendan ikus ditzakegu (http://www.let.rug.nl/~vannoord/TextCat/competitors.html). Eta bai TextCat-ek eta bai beste batzuk badute euskara detektatzen dituzten hizkuntzen artean. Horrez gain, IXA taldearen LangId ere badago, metodo hori erabiltzen duena, euskara eta inguruko beste hizkuntzetarako prestatuta dagoena, beste hizkuntza batzuetarako ere presta daitekeena corpus txiki bat emanez, eta librea dena. TextCat, LangId eta beste tresna asko libreak dira. Beraz, bilatzaileek nahiko balute erraz asko detektatu ditzakete euskarazko orriak eta horietan soilik bilatzeko aukera eman (lematizazioarena beste asunto bat litzateke). Kontua da euskara hizkuntza txikia dela eta ez zaiela ekonomikoki errentagarria, eta beraz ez dute interesik. Saiakera bat baino gehiago egin izan da aurretik, guk ere egin ditugu, baina ez zaie interesatzen.

Hala ere, Elebila-k ezin du metodo hori erabili, beste bilatzaileen gainean eraikita baitago, eta aipatzen duzunaren moduko “formula” bat erabiltzen du, hau da, filtro-hitz zerrenda txiki bat balioko duena bilatzaileengandik euskarazkoak bakarrik eskuratzeko. Baina “formula” magiko eta perfekturik ez dago: euskarazko maiztasunik handieneko hitzak laburrak dira eta beste hizkuntza batzuetan ere existitzen dira, beraz hitz nahikoa erabili behar dira, baina zenbat eta gehiago erabili euskarazkoak diren orriak galtzeko aukera handitzen da horietako bat edo gehiago ez dituelako. Elebilak filtro-hitz kopuru jakin bat erabiltzen du defektuz, baina filtroa lasaitzeko aukera ere ematen du emaitza nahikoa agertzen ez bada.

Orain, zure galderei erantzunez:

Euskara identifikatzeko formularik badago eginda? Guk Elebila-n erabiltzen dugu horrelako “formula” bat, nahiz eta, diodan bezala, ez den magiko eta perfektua… Hala ere, kasuaren arabera, nahiko egokia dela uste dugu.

Baldin badago, librea al da? Bai, guk argi asko azaldu dugu erabiltzen dugun metodoa bai nazioarteko kongresuetan (iNEWS 07 – Improving Non-English Web Searching – Amsterdam July 2007, ikus http://ixa.si.ehu.es/Ixa/Argitalpenak/Artikuluak/1190627800/publikoak/pdf) bai Euskal Herrian egin diren aurkezpen eta artikuluetan (hemen bertan estekatzen duzun Sustatu-ko artikulua, http://www.sustatu.com/1193329281), eta ez dago horren gainean patente edo horrelakorik.

Badago aukerarik hori bilatzaile handien jabeei eskaini eta euren produktuen barruan txertatzeko? Esan dudan bezala, beste metodoen bidez ere erraz identifika ditzakete euskarazko dokumentuak, eta gure metodologia eta tresnen berri ere badute, baina ez dute interesik.

Euskarazko softwarearen inguruko komunitateak zer irabazi eta/edo zer galduko luke hori eginda? Guk behintzat ez dugu ezer horren aurka, ez gara gu izan ez izango oztopo horretarako, alderantziz, saiatu ere saiatu gara denontzat onena hori delakoan… Baina beraiek egin nahi ez zutenez, horregatik egin genuen Elebila.

(Bide batez, goian aipatutako tresnetako gehienek, TextCat eta abarrek, katalana ere detektatzen dute eta aspalditik existitzen dira, beraz ez dakit benetan zenbateraino izan den hain garrantzitsua Partal-ek aipatzen duen formula hori bilatzaileek katalana aukera moduan emateko… Agian azkarragoa delako izan daiteke? Ez dakit…)

Reply
joxe

joxe

2007(e)ko abenduak 13 at 22:33

Mila esker benetan bioi zuen erantzunengatik. Oso-oso argigarriak egin zaizkit, eta asko ikasteko balio izan didate. Partalen azalpenak pare bat aldiz entzunda, eta inguruko mugimenduen berri izan barik, buruan neukan ideia zen gure oinarrizko arazoetako bat zela hizkuntza automatikoki atzemateko formula edo dena delako hori ez egotea.

Batetik pozten nau jakiteak badirela makinek euskara identifikatzeko moduak… eta bestetik etsigarria ere egiten zait jakitea horrek ez duela katalanaren kasuan omen duenaren pareko eraginik izan gurean. Badirudi euskaldunok ez dugula masa kritiko nahikorik errentagarritasuna helburu duten Google eta antzekoen arreta pizteko…

…eta horrek argi gorria ere piztu dit: egia da beti geratzen zaigula autoekoizpenaren bidea (Elebila horren adibide txukuna da)… baina arazoa ‘demografikoa’ baldin bada, (hots, munduan ez badago merkatu errentagarri bat bermatzeko beste euskaldun), horrek ez gaitu neurri handi batean kondenatzen? Bideragarriak gara mundu globalizatuan, geure txokoa mantentzeko zirkuitu globalen antzeko ‘paraleloak’ etengabe sortzen ibil behar badugu? Enpin, egun katastrofista samarra daukat gaurkoan.

Igorren azken galderari dagokionez (formularen garrantzia bilatzaileek katalana aukera moduan eskaintzeko), ulertzen dudanez, kontua da formula hori nahiko aspaldikoa dela (euskarazkoa ere Google sortu aurrekoa dela dio Garik). Googlek hasiera-hasieratik izango zuen eskura beraz, eta hortik garrantzia…

Reply
patxi gaztelumendi ! irratia.com

patxi gaztelumendi ! irratia.com

2007(e)ko abenduak 15 at 12:38

Aupa Joxe.
Nik beste formula bat ikasi nuen Korrikaren ezdakitzenbatgarren edizioan…

1+1 hamaika

Alegia, katalanek egiten dutena oso ondo dago. Eredugarri zaizkigu. Hemen baina, bakoitzaren borondatetik abiatu beharko dugu.

Hiruzpalau adibide.
Firefox nabigatzaile euskalduna ahalik eta leku gehienetan instalatzea.
Euskarazko edukiak egunero sarean jartzea
Gure webguneetan, euskarazko etiketak jartzea
Wikipedia eduki euskaldunez ondo betetzea, eskoletan, hezkuntzan, etxean erabili dadin
Egunero, lagun bat gonbidatuz euskarazko Internet ttiki hau ezagun dezan..

Gutako edozeinek egin ditzakeen ekintza txikitxoak dira. 1+1 hamaika izango gara horrela. Apurka apurka.

Reply