Evan Sandhaus, arhivar New York Timesa

Časopisi imajo, česar spletna podjetja nimajo – uredniške odločitve. Zato arhivi niso le pasivni shranjevalci zgodovine.

Objavljeno
27. januar 2012 17.46
Arhivar New York Timesa
Lenart J. Kučić, Sobotna priloga
Lenart J. Kučić, Sobotna priloga

»Novinarstvo je prvi grobi osnutek zgodovine,« je pred več kot šestdesetimi leti dejal Philip Leslie Graham, ameriški založnik in solastnik lastnik časopisa Washington Post. Ta grobi osnutek zgodovine pa je shranjen v bogatih časopisnih dokumentacijah, si je Grahamovo misel izposodil Evan Sandhaus, ki v ameriškem časopisu New York Times (NYT) razvija orodja za iskanje po njihovem 160 let starem arhivu in spremlja tehnološke trende, ki bodo v prihodnjih letih najbolj vplivali na časopisno dejavnost.

Življenje časopisnega arhiva se v zadnjem stoletju ni prav zelo spreminjalo. Dokumentalisti so članke izrezovali iz tiskanega časopisa, jih opremljali s ključnimi besedami, vnašali v kataloge in izdelovali dosjeje, ki so jih novinarji potrebovali za prispevke. Digitalizacija arhivov je podoben proces prenesla na digitalne nosilce in nekoliko olajšala iskanje, a ni povzročila večjih sprememb. Arhivarsko delo se bo začelo zares preoblikovati šele v prihodnjih letih, ko bo treba učinkovito povezovati zelo različne podatkovne zbirke – knjižnice z družabnimi omrežji, časopise z wikipedio in članke z geografskimi podatki. Zato arhivi ne bodo več mogli ostati pasivni shranjevalci zgodovine, ampak bodo imeli močnejšo vlogo tudi pri nastajanju sedanjosti, je prepričan sogovornik.

Če bi vas v začetku stoletja zanimala služba v arhivu New York Timesa …

… me verjetno ne bi vzeli, ker so v tistem času tehnična znanja potrebovali kvečjemu v tiskarni. Informatiki smo postali za arhive zanimivi šele veliko pozneje – ko so morali digitalizirati gradiva in postaviti informacijske sisteme za iskanje po elektronskih zbirkah podatkov. Če pa bi me le zaposlili, bi morda postal del ekipe, ki je morala izdelati prvo kazalo po vsebini časopisa.

Kazalo?

V začetku dvajsetega stoletja je bila konkurenca na časopisnem trgu izjemno huda. NYT je bil le eden izmed dnevnikov, ki so izhajali v New Yorku, zato so založniki vsak po svoje iskali načine, kako biti boljši ali vsaj drugačen od tekmecev. Nekateri so stavili na ekskluzivo, drugi so menili, da mora časopis ponuditi tudi poglobljene zgodbe, kar je zagovarjal tudi založnik NYT Adolph Simon Ochs. Zmotilo ga je, da niti uredniki ne vedo, kaj vse je bilo v zadnjem letu objavljeno v časopisu, saj je bilo člankov preveč. Zato je sklenil, da njegov časopis potrebuje uporabno kazalo. Prvo tako kazalo (Index) je izšlo leta 1913 in je postavilo smernice, ki se jih držimo še danes, saj je omogočal iskanje po osebah, organizacijah, lokacijah, ključnih opisnih pojmih in naslovih. Danes imamo prek googla, pametnih telefonov in digitalnih knjižnic vsi dostop do informacij, zato si težko predstavljamo, kako pomembna je bila za novinarje dobra hišna dokumentacija.

Komu je bilo namenjeno to kazalo? Vaši dokumentaciji ali tudi zunanjim uporabnikom?

S pomočjo kazala so lahko v dokumentaciji hitro pripravili posebne dosjeje o osebah in dogodkih, ki so jih nato novinarji uporabljali pri pisanju besedil. Hkrati je postajal NYT vse bolj priljubljen tudi v splošnih in referenčnih knjižnicah, ker ga ni bilo treba še enkrat urejati. Vsak uporabnik je lahko poiskal članke, v katerem so bile omenjene določene osebe, kraji ali dogodki, kar je bila za tiste čase velika novost. Kazalo je bilo tudi odlična dopolnitev tradicionalnega klipinga, ki ga je naša dokumentacija zbirala od začetka. Nešteti regali s tematskimi mapami obstajajo še danes – tri nadstropja pod ulicami Manhattna in mu ljubkovalno pravimo mrtvašnica.

Kako sta se dopolnjevala kazalo in kliping?

Kazalo vam je povedalo, v katerih člankih so se pojavile določene ključne besede. Imelo je zelo podobno funkcijo kot današnji iskalniki po dokumentaciji, ko v okence vpišete iskane besede in dobite seznam zadetkov. Klipingi so omogočali pametnejše iskanje, saj so morali v dokumentaciji upoštevati, da je lahko ena oseba opravljala različne funkcije. Vzemimo sedanjo državno sekretarko Hillary Clinton. Če potrebujete njen dosje, mora vsebovati tako njeno sedanjo funkcijo kot tudi njene pretekle vloge: nekdanje demokratske predsedniške kandidatke, prve dame, soproge nekdanjega guvernerja Arkansasa in tudi zapis o študentki Hillary, ko se je še pisala Rodham.

Računalniki se dobro znajdejo s kazali, večje težave jim delajo klipingi. Ali že obstajajo dokumentacijski sistemi, ki bi znali najti vse vloge Hillary Clinton in izdelati uporaben dosje?

Zelo dobro urejene dokumentacije – tiste, v katerih so vsi prispevki dosledno opremljeni z enakimi ključnimi besedami in opisi – se temu idealu že kar približajo.

Če človeški iskalec pregleduje tiskan dosje, lahko gradiva zelo hitro razvrsti po pomembnosti. Poglobljen intervju, analitičen članek ali komentar se že na prvi pogled ločijo od agencijske novičke ali naključne omembe v prispevku. Tako učinkovito pregledovanje zadetkov v elektronski obliki verjetno še ni mogoče?

Osnovno računalniško iskanje je v resnici zelo preprosto. Ko pretvorite arhiv v elektronsko obliko, ga razbijete na posamezne znake, ki jih računalniki znajo prepoznati. Ko v iskalno polje vpišete določeno zaporedje teh znakov – ključne besede –, vam računalnik izpiše kronološko razvrščene zadetke, ne zna pa presojati njihovega pomena. To pomeni, da boste že pri iskanju člankov o Hillary Clinton dobili veliko neuporabnih zadetkov. Kaj šele, če boste vpisali »apple«. Tretjina najdenih zapisov bo govorila o sadežu (jabolku), četrtina o računalniškem podjetju Apple, v vseh drugih bo beseda omenjena čisto naključno. Zato morajo biti vsa besedila opremljena s premišljenimi oznakami, ki računalniku pomagajo razlikovati med imenom podjetja in sadežem. Te oznake pri nas še vedno vnašamo ročno, saj lahko le na ta način zagotovimo dovolj konsistentno označevanje.

Kako lahko časopisne in druge dokumentacije tekmujete z googlom, amazonom ali facebookom, ki pri razporejanju iskalnih zadetkov uporabljata neštete trike za izboljševanje natančnosti: zgodovina iskanja, nakupovalnih navad, vsebino elektronske pošte, objave na osebnih profilih … Časopisi nimate tako podrobnih uporabniških informacij.

Časopisi ne moremo tekmovati z omenjenimi podjetji, ker so prevelika in lahko zbirajo nepredstavljive količine uporabniških podatkov. Vendar tudi mi razvijamo uporabne trike za izboljševanje iskalnih zadetkov. Obnašanje naših bralcev na spletu kar dobro poznamo. Naučili smo se spremljati pojavljanje naših člankov v blogosferi in določiti najpomembnejše mnenjske voditelje. Vemo, kdo priporoča naše vsebine, kako se širijo po svetovnem spletu in kako lahko z družabnimi omrežji povečamo njihov doseg. Poleg tega imamo časopisi še en pomemben podatek, ki ga internetna podjetja nimajo – uredniške odločitve.

Katere novice so bile objavljene na naslovnici?

Kateri intervjuji so dobili več prostora, katere teme smo v nekem obdobju bolj poglobljeno pokrivali … Ti podatki so zelo koristni, saj odražajo neštete debate, premisleke in presoje, ki so se dogajale na uredniških sestankih. Ta pristop se nam zdi zelo obetaven, saj združuje dolgoletne izkušnje človeških urednikov z matematičnimi statističnimi orodji, ki sta jih prinesla digitalizacija in svetovni splet. Tudi prvi rezultati našega pilotskega projekta, v katerem smo preizkušali uporabo uredniških metapodatkov, so zelo spodbudni.

Google poskuša z novičarsko storitvijo google news doseči podoben učinek – le brez človeške pomoči. Vlogo odgovornega urednika so zaupali svojemu matematičnemu algoritmu.

Internetna podjetja se rada pohvalijo, da so človeške urednike uspešno nadomestili s statističnimi modeli in matematično analizo, vendar to ni čisto res. Tudi google news presoja pomembnost člankov glede na uredniške odločitve – kje je bil objavljen članek, kako dolgo je bil na spletni strani in kakšen pomen so mu pripisali človeški uredniki. Enako druga internetna podjetja. Natančnost matematičnih algoritmov morajo nenehno izboljševati njihovi človeški skrbniki.

Na področju iskanja in tudi jezikovnih tehnologij – zlasti pri strojnem prevajanju – se ves čas prepletata dva pristopa: statistični in semantični. Prvi poskuša premleti velike količine podatkov in izračunavati ujemanje, na kar prisega google. Drugi želi razumeti kontekst, kar zagovarjate vi. Kateri pristop ima trenutno več privržencev?

V zadnjem desetletju se je neznansko povečala količina podatkov v digitalni obliki in hkrati procesorska moč računalnikov, ki te podatke obdelujejo. Google lahko statistično obdela na milijone elektronskih pisem, člankov, knjig, blogov in drugih spletnih vsebin – nepredstavljivo zalogo človeške uporabe jezika. Ker so njegova prevajalska orodja vse boljša in se natančnost njegovega iskalnika hitro povečuje, se krepijo tudi pričakovanja do statističnega modela in prepričanje, da bodo lahko računalniki brez človeške pomoči in poznavanja pravil prevajali besedila v tuje jezike, pisali članke in jih urejali. Vendar za medijsko organizacijo statistični pristop nikoli ne bo dovolj natančen. Statistika je lahko koristno orodje, ne more pa nadomestiti dobre uredniške presoje, ki ostaja glavna konkurenčna prednost kakovostnega medija.

Pri spletnem mediju Huffington Post trdijo, da so uredniki vedno pokroviteljski do bralcev in jim vsiljujejo lasten elitistični okus, vrednote in politična prepričanja. Zato izbiro pomembnosti prepuščajo bralcem – najbolj klikani članki so najpomembnejši. Kako bi bil organiziran arhiv, če bi ga oblikovale želje bralcev?

Precej drugače, kot si zamišljamo arhivarji (nasmešek). Arhivi so bili tradicionalno namenjeni raziskovalcem, akademikom in novinarjem, ki imajo zelo specifične iskalne potrebe. Običajne uporabnike zanimajo čisto druge stvari. Včasih kliknejo na kako arhivsko povezavo, ker jih je pritegnil prispevek na spletni strani. Najpogosteje pa v časopisnem arhivu iščejo sebe, znance, sorodnike in dogodke, s katerimi so osebno povezani. Tudi sam sem se že večkrat zalotil, kako brkljam po dogodkih iz svojega otroštva ali iščem novice, povezane s predniki. Med drugim sem našel star zapis o prapradedu, ki je ob neki poplavi postal junak. V časopisu, ki je v zadnjih 160 letih objavil več kot dvajset milijonov člankov, je takih informacij še veliko.

Je morda to način, kako tržiti časopisno dokumentacijo? Ponujanje osebnih biografskih storitev?

Poznate storitev timeline, ki so jo pred kratkim predstavili pri facebooku? Časovnico, v katerih so zbrani vsi dogodki, o katerih ste pisali na osebnem arhivu, vaša prijateljstva, popotovanja …? Predstavljajte si, da bi lahko svojo osebno časovnico dopolnili z dogodki, ki so se tedaj zgodili v vašem kraju ali drugod po svetu – kakšen je bil svet, ko sem se poročil, dobil prvega otroka? Kaj se je dogajalo v mestu, kjer sem živel, in kateri moji sošolci so postali znane osebnosti? Povezovanje podatkovnih zbirk danes omogoča zelo zanimive rabe arhivov, ki še pred nekaj leti niso bile mogoče. Pri NYT smo začeli člankom dodajati podatke o lokaciji, kar bo olajšalo iskanja, povezana z določenimi kraji ali celo mestnimi predeli. Wikipedia beleži številne koristne biografske in druge podatke, ki jih naš arhiv še nima. Za zabavo smo izdelali lestvico znanih osebnosti, razvrščeno po telesni višini, ki je doživela zelo dober odziv. Trenutno preizkušamo tudi storitev, ki ji zaupate svoje osnovne biografske podatke in dobite interaktivni zgodovinski zemljevid, ki vas umesti v čas in prostor. Vse to so primeri, ki kažejo, da podatki zares zaživijo šele, če so povezani in dostopni, zato so pobude o odpiranju podatkov tako pomembne.

Ker določajo enotna pravila za urejanje podatkovnih zbirk?

Ali vsaj enotna priporočila. Sedanjega predsednika Baracka Obamo vodimo po drugačnem evidenčnem sistemu kot wikipedia, kongresna knjižnica, spletna prodajalna amazon ali twitter. Naša podatkovna zbirka ne ve niti tega, da je moški, ali da je star 50 let, vendar nam lahko ta podatek povedo druge podatkovne zbirke in arhivi. O tem problemu dokumentacije doslej niso razmišljale, saj združevanje tako različnih podatkovnih zbirk niti tehnično ne bi bile mogoče. V prihodnosti pa bo uporabnost dokumentacije zelo odvisna od njene povezljivosti, saj se za sodelovanje zanimajo tudi različne raziskovalne skupine, ki se ukvarjajo s strojnim prevajanjem, umetno inteligenco, spremljanjem družbenih trendov in širjenjem novinarskih zgodb. Pri takem projektu trenutno sodelujemo tudi z raziskovalci vašega inštituta Jožefa Stefana in Slovensko tiskovno agencijo.

Ugotavljate, kako se širijo novinarske zgodbe?

Znanstveniki želijo v projektu Xlike razviti jezikovne tehnologije, ki bi omogočale pregledovanje in spremljanje novičarskih virov v različnih jezikih. Ne le na ravni posameznih fraz ali ključnih besed – to danes ni več novost –, ampak hočemo računalniku pomagati, da bi razumel sporočilo besedila. Namen tega projekta pa je spremljanje toka informacij. Zanima nas, kaj se zgodi, ko se, denimo, v Braziliji zgodi huda prometna nesreča in ponesrečenec na twittru v portugalščini objavi novico o dogodku. Jo povzamejo lokalni mediji? Postane nacionalna ali se celo razširi po svetu?

Zakaj je taka informacija zanimiva za časopise?

Poznavanje novičarskih ciklov je le prvi korak. Naš motiv je tehnologija, ki bi znala v različnih jezikih spremljati dogajanje na družabnih in tradicionalnih medijih. S takim orodjem bi naši analitiki iskali zanimive novinarske zgodbe in družbene trende, ki bi jih sicer spregledali – od novic do ugotavljanja, kako so se skozi čas spreminjale ideje, družbeni koncepti, obravnava družbenih manjšin in politična retorika. Če bomo znali uspešno povezati dnevne informacijske tokove s podatki, ki jih hrani naša dokumentacija, lahko pridobimo veliko prednosti pred drugimi medijskimi tekmeci. Sploh če te podatke združimo še z našimi infografiki, ki so se v zadnjih letih naučili zelo dobro ilustrirati zgodbe s podatki.

Konec lanskega leta je raziskovalec Michael Witmore uporabil zmogljiva analitična orodja za proučevanje Shakespearovih dram. Iskal je slogovne posebnosti, preverjal teorije, da so dela znanega angleškega dramatika pisali različni avtorji, in med drugim dokazal, da je bil Othello sprva najverjetneje komedija. Bi lahko spodobno analizo vaše dokumentacije nekoč ugotovili, kdo je v resnici ubil predsednika Kennedyja?

Ali dokazali, da je Elvis še vedno živ? (smeh) Tistim, ki so prepričani, da poznajo pravo resnico o Kennedyjevi smrti, pristanku na luni ali usodi kralja rokenrola nobena analiza ne more dati odgovora, ki bi jih zadovoljil. Ne, časopisni arhivi še dolgo ne bodo odgovorili na taka vprašanja, ne glede na to, kako boste premetavali podatke. Kmalu bomo znali ugotoviti, v katerem zgodovinskem obdobju so moški brki prehiteli brado, ali razvrščati članke po zgodbah, da se bodo določeni članki o nekdanjem kardinalu Ratzingerju znašli v dosjeju prejšnjega papeža Janeza Pavla II. Prav tako se moramo naučiti, kako uporabiti internetne uporabnike pri pregledovanju in označevanju velikih količin dokumentov.

Podobno, kot so pri Guardianu bralce prosili, naj jim pomagajo urediti elektronska pisma nekdanje guvernerke Aljaske Sarah Palin?

Podobno, vendar spletnim uporabnikom ne bi prepustil označevanja besedilnih gradiv, ker imamo na tem področju že uveljavljen sistem, ki bi ga zunanji pomočniki težko izboljšali. Množicanje bi raje uporabil pri označevanju fotografskih zbirk, saj so fotografske podobe še zelo slabo opremljene z opisi, kje je posnetek nastal in kaj je na njem. Google in Facebook vlagata veliko denarja v razvoj tehnologij, ki bi znale same prepoznavati obraze, stavbe in lokacije, vendar dvomim, da bodo ti podatki kdaj javno dostopni. Sanjam o dnevu, ko bom lahko začel naš arhiv povezovati s kakovostno urejeno fotografsko zbirko, saj imam že veliko zamisli, kaj vse bi lahko ustvaril. Čudne sanje, saj vem, ampak računalnikarji pogosto veljamo za čudake. Sploh, če smo hkrati še arhivarji (nasmešek).