WWW-palvelun käytön seuraaminen palvelinlokeista

30.11.2005 Jarmo Parkkinen

Erään suurehkon suomalaisen WWW-sivuston tuottajat olivat tienneet pitkään, että sivuston yhtä osaa ei luettu. Sivuston suuresta käyttäjämäärästä vain pieni osa klikkasi kyseisen sivun artikkeleita. Käyttäjät jotka olivat löytäneet yhden artikkelin, lukivat yleensä useampia artikkeleita saman tien.

Kysymystä pyrittiin ratkaisemaan uudella otsikoinnilla ja artikkelien painopistettä muuttamalla. Tämä ei ratkaissut ongelmaa – artikkeleita ei edelleenkään luettu. Sivuston käytettävyyden asiantuntija-arvioinnissa ongelmaksi paljastui vähänkäytettyyn osioon johtavan linkin sijainti etusivulla. Linkki näytti kuuluvan toisen aihealueen kuvan yhteyteen kuvatekstinä, eivätkä käyttäjät huomanneet että yhden linkin sijaan linkkejä olikin kaksi.

Mitä on lokitieto?

Käyttäjän – kenen tahansa – klikatessa linkkiä WWW-selaimessaan, selain lähettää “palvelinpyynnön.” Esimerkiksi linkin – klikkaaminen aiheuttaa palvelinpyynnön, johon Adagen verkkopalvelinkone vastaa lähettämällä tietyn tiedoston, eli Adagen etusivun.

Samalla kun Adagen palvelin lähettää sivun, jää palvelimen loki- eli seurantatiedostoon seuraavat tiedot:

  • minkä niminen kone pyysi tiedostoa
  • mihin aikaan tiedosto pyydettiin
  • mikä tiedosto pyydettiin
  • annettiinko tiedosto
  • kuinka suuri tiedosto oli
  • menikö tiedosto perille.

Nämä tiedot kerätään jokaisen käyttäjän jokaisesta klikkauksesta, jokaisella WWW-sivustolla. Niiden kerääminen on alkanut palvelinten ylläpitäjien tarpeesta tietää toimivatko koneet ja ohjelmistot oikein; nykyisin myös viestintälaki edellyttää joidenkin tietojen keräämistä ja asianmukaista säilyttämistä.

Osa selaimista lähettää enemmän tietoa – minkä puolestaan osa palvelimista tallettaa. Nämä ylimääräiset tiedot ovat yleensä

  • selailuun käytetty selainohjelmisto
  • selainohjelmiston kieliasetus
  • apuohjelmat jotka on asennettu selaimeen
  • käyttöjärjestelmä
  • edellisen katsotun sivun osoite (”referring page”)
  • evästeet (cookies)
  • näytönohjaimen antama resoluutio ja värisyvyys
  • selainikkunan sijainti ja koko.

Nämä tiedot muodostavat selainlokit. Periaatteessa niistä nähdään, miten käyttäjä on toiminut sivustolla; mistä hän on tullut, mitä hän on selannut, millaisten polun hän on kulkenut sivustolla, ja mistä hän on lähtenyt pois (Kuva 1 ja kuva 2: Käyttölokin visualisointi: Clicktracks ja Urchin).

clicktracks_esimerkki

Kuva 1: Clicktracks-sovelluksen tapa visualisoida käyttäjän toimintaa sivustolla (http://www.clicktracks.com/)

urchin_esimerkki

Kuva 2: Urchin-palvelun tapa visualisoida käyttäjien polkuja sivustolla (http://www.urchin.com/)

Harhaanjohtavaa tietoa

Palvelinlokien ensisijainen tarkoitus on auttaa palvelinten ylläpitäjää näkemään miten palvelin toimii. Tästä johtuen palvelinlokiin ei suinkaan tallennu se mitä käyttäjä tekee, vaan se mitä palvelinta pyydetään tekemään. Kun palvelinlokista saatavaa tietoa hyödynnetään palvelun käytön seuraamisessa, aiheutuvat tiedon luotettavuuteen suurimmat ongelmat selaimen välimuistista, internetpalvelun tarjoajan välimuistipalveluista, palomuureista ja hakukoneroboteista.

Selaimen välimuisti: jokaisessa selaimessa on välimuisti (cache), johon selain tallettaa niitä sivuja joilla käyttäjä on vieraillut. Palvelin ei tiedä sellaisesta sivusta jonka käyttäjä katsoo tietokoneen välimuististista. Yksittäiset sivut (tiedostot) tai koko sivusto voidaan laatia niin, että se ehdottaa selaimelle että se tarkastaa palvelimelta onko sivu muuttunut. Tämä on kuitenkin ehdotus, loppujen lopuksi selain päättää mitä se tekee.

Internetpalvelun tarjoajan (ISP) välimuistipalvelin (proxy): Jokainen kuluttajille internet-yhteyksiä myyvä taho käyttää jonkinlaista välimuistipalvelinta. Välimuistipalvelin on hyvin samantapainen kuin selaimen välimuisti. Sivuston laatija voi asettaa sivuihin ehdotuksia siitä, miten kunkin sivun kanssa tulisi menetellä. Loppujen lopuksi välimuistipalvelimen ja selaimen asetukset kuitenkin määräävät melko pitkälle milloin tiedostoa kysytään palvelimelta, ja milloin se ladataan välimuistipalvelimesta.

Palomuurit: Palvelun käyttöä seuraavalle ehkä tärkein tieto on se, millaisia tiedostoja yksittäinen tietokone – eli usein käyttäjä – hakee. Palomuurien tarkoitus on juuri päinvastainen, eli ne pyrkivät peittämään mahdollisimman tehokkaasti kaikki tiedot siitä mikä yksittäinen tietokone on pyytänyt tiedostoa. Tästä johtuen esimerkiksi suuren yrityksen kymmenet tuhannet käyttäjät saattavat näkyä palvelinlogeissa yhtenä koneena. Palomuurit myös estävät aiemmin mainittujen lisätietojen välittämisen, ja ne saattavat kohdella evästeitä varsin ylimalkaisesti.

Hakukoneiden ”robotit”: Hakukoneet – kuten Google – keräävät tietoa sivustojen sisällöstä ja muutoksista niin sanotuilla roboteilla. Robotti on periaatteessa yksinkertainen ohjelmisto, joka lataa sivun, katsoo mitä linkkejä sillä on ja seuraa niitä, ja toistaa edellisen… Toisin sanoen, robotti saattaa näyttää käyttäjältä hyvinkin paljon. Suurin osa roboteista ilmoittaa olevansa robotti, mutta suinkaan kaikki robotit eivät sitä tee. Robotit saattavat aiheuttaa jopa 20% sivujen latauksista.

Käyttökohteen mukaan

Palvelinlokit kerätään aina palvelimen ylläpitäjän toimesta. Esimerkiksi mainostilan ostajalle palvelimen ylläpitäjän tuottama loki ei ole riittävän ymmärrettävä, tarkka tai uskottava. Edellä lueteltujen virhelähteiden takia sekä luotettavan tiedon saamiseksi on olemassa erilaisia verkkokäyntitilastointia tarjoavia ulkopuolisia palveluntarjoajia.

Ulkopuolisen kävijälaskurin tarjoajan palvelu on pitkälti samojen epävarmuustekijöiden uhrina kuin palvelinlokikin. Ulkopuolisesta palvelusta saadaan kuitenkin kaksi merkittävää etua: Tulokset ovat vertailtavissa eri verkkopalveluiden kesken, sillä arviointivirheet ovat luultavasti samansuuruisia. Toisaalta, ulkopuolisella palveluntarjoajalla on mahdollisuuksia keskittää osaamista tilastoinnin ongelmien tunnistamiseen ja oikaisemiseen jolloin myös tulosten luotettavuus paranee, tai ainakin saadaan enemmän tietoa epävarmuustekijöistä.

Mikäli jokaisesta kävijästä halutaan ehdottomasti tieto joko palvelinlokiin tai ulkopuolisen tilastoijan ohjelmistoon, laaditaan sivusto joskus niin että yksittäinen sivu ”generoidaan” aina uudestaan (jolloin välimuistissa tai välimuistipalvelimessa ei ole osoitetta vastaavaa sivua). Sivujen generointi aiheuttaa kuitenkin itsessään joitain käytettävyysongelmia, kuten mahdollista hidastumista ja sen ettei sivun osoitetta voi lisätä selaimen kirjanmerkkeihin tai lähettää sähköpostilla. Toinen usein käytetty ratkaisu on pakottaa sivuston käyttäjät kirjautumaan aina sivustolle. Käyttäjien pakottaminen kirjautumiseen aiheuttaa helposti kävijämäärien laskua: palvelu koetaan työlääksi käyttää tai saadaan ”akuankkarekisteröitymisiä” sillä kaikki käyttäjät eivät halua luovuttaa tietojaan. Tällöin saatu lokitieto saattaa jäädä edelleen epätarkaksi, ja pahimmillaan käyttäjät tulevat tyytymättömiksi ja siirtyvät kilpailijoiden asiakkaiksi.

Ratkaisu siitä millä menetelmillä ja kuinka pakotetusti tieto kerätään, riippuu sekä verkkopalvelun luonteesta että mittaamisen tavoitteista. Jos mittaus suoritetaan tarkemmin kuin tulokset analysoidaan, menevät resurssit hukkaan. Jos mittaus on lepsua, ovat tulosten perusteella tehdyt johtopäätökset epävarmalla pohjalla.

Tiedon analysointi

Palvelinlokeja voi tutkia suoraan palvelintiedostosta. Järjestemällä lokirivit esimerkiksi IP-numeron perusteella aikajärjestykseen, voi nähdä millaisia sivupolkuja yksittäisestä koneesta käsin on seurattu, ja esittää arvailuja siitä miten käynti on tapahtunut. Yksittäinen lokirivi kertoo kuitenkin yleensä vain sen mitä selaimelle on ladattu – ei sitä mitä sivulta on katsottu ja mitä muuta samalla on tehty. Pienillä kävijä- ja sivulatausmäärillä käsin tehtävä analysointi voi olla paras vaihtoehto.

Kun kerätyn tiedon määrä kasvaa suuremmaksi, kannattaa sen analysointiin käyttää jotain valmista ohjelmistoa. Suurin osa valmisohjelmista osaa poistaa lokitiedosta tavallisimpia virhelähteitä, esimerkiksi tunnistaa hakukoneiden robotit ja osaa poistaa niiden aiheuttamat sivulataukset tuloksista. Analysointiohjelmiston toinen tärkeä ominaisuus on sen tapa visualisoida suuri tietomassa, joka lokeista syntyy.

Käytettävyyden parantamisen kannalta valmisohjelmistojen visualisointitavat ovat kuitenkin ongelmallisia, sillä ne keskittyvät yleensä kävijäpiikkien sekä tavallisimmin seurattujen polkujen korostamiseen. Tavallisimmin seuratut polut ovat tärkeitä käytettävyydenkin kannalta, mutta ongelmien paikallistamisessa olisi tärkeää löytää hieman harvinaisempia polkuja joissa esimerkiksi käyttäjä siirtyilee paljon edestakaisin, tai pyörii kehää ja poistuu sitten palvelusta.

Parhaiten nykyiset sovellukset pystyvät tuomaan tietoa siitä, miten esimerkiksi käyttäjien hakukoneissa käyttämät hakusanat ovat tuoneet heidät verkkopalvelun sisälle ja millaisia sivuja eri hakusanojen jälkeen on katsottu. Verkkokaupoissa voidaan tutkia millaiseen tilaukseen hakusanan tuloksena on päädytty, tai jäävätkö ”ostoskärryt käytävälle” hakukoneella tulijalta.

Vaikutukset suunnitteluun ja toteutukseen

Käyttöliittymäsuunnittelun kannalta on mielenkiintoista seurata kuinka suuri osa käyttäjistä tulee sivustolle muualta kuin etusivun kautta. Mikäli suuri osa käyttäjistä tulee suoraan sisältösivulle, vaikuttaa tämä sivuston suunnittelun vaatimuksiin: ei voida olettaa että jokainen käyttäjä näkee etusivun, joten tieto sijainnista sivustolla, ja sivuston koko tarjonta, tulisi saada esitettyä jokaisella sivulla.

Xerox Parcin tutkimuslaitoksen verkkosivustojen käyttövisualisoinnin tutkimuksessa on kiinnitetty huomiota myös käyttölokin visualisointiin suunnittelua ohjaavana tekijänä. Koko sivuston rakenteen visualisoivassa kuvassa voidaan tutkia jo suunnitteluvaiheessa, kuinka pitkän polun käyttäjä joutuu käymään omaksuakseen kokonaiskuvan esiteltävästä asiasta. Tällaisen suunnitelman paikkansapitävyyttä voidaan parantaa vertaamalla suunniteltuja polkuja käytettävyystestin testikäyttäjien todellisiin polkuihin.

Analysointitapa ei ole pelkästään datan visualisointiongelma, vaan analysointiin vaikuttavat palvelun tavoitteet. Analysointitapaa ja syvyyttä valitessa tulisi jo tehdä päätöksiä siitä, miten reagoidaan jos jotain sivuston osaa käytetään selkeästi vähemmin kuin kokonaiskävijämäärä antaisi olettaa. Verkkopalveluiden hallinnoijat tarvitsevat ohjeistuksen siitä, miten toimitaan silloin kun suuri osa käyttäjistä etsii tiettyä tietoja joka on ehkä hyvinkin syvällä piilossa sivuston rakenteessa – esimerkiksi kriisiajan viestinnässä muutoin harvinainen tieto tulee hetken ajaksi hyvin kysytyksi.

Lokit tarjoavat halvan keinon mitata käyttäjien toimintaa, mutta ne eivät kerro mitä mittaustulosten perusteella tulisi tehdä. Nykyisellään käyttölokien seuraaminen toimii käytettävyyden parantamisen apuna silloin, kun lokitietoa voidaan yhdistää käyttöliittymän asiantuntija-arvioihin tai käytettävyysteihin. Palveluiden sisällöllinen kehittäminen puolestaan vaatii käyttölokitiedon yhdistämistä sellaiseen tietoon joka kertoo käyttäjän tavoitteista, esimerkiksi asiakastietoihin tai aiempiin tiedon kulutustottumuksiin.

Kommentointi on suljettu.