NULL Skriv ut sidan - Sökningsmetodik och -logik

Anbytarforum

Titel: Sökningsmetodik och -logik
Skrivet av: Anders Andersson skrivet 2003-12-13, 22:57
Vi är överens om problemet. Att Sveriges dödbok uppvisar det här beteendet beror ju på att uppgifterna är hämtade ur källor av olika kvalitet. Arbetet med att komplettera Sveriges dödbok syftar ju till att eliminera de tomma fälten i posterna, men risken finns alltid att ett antal poster med ofullständiga data kvarstår, av olika skäl.
 
Sökformuläret till Sveriges dödbok innehåller ju enbart de fält som är representerade i databasen. Man kan göra tankeexperimentet att formuläret även skulle innehålla något fält som ingen post i databasen har någon uppgift i, exempelvis yrke. Om jag anger något i detta fält och gör en sökning, bör jag då erhålla samma resultat som om jag lämnat det fältet tomt, eller bör jag erhålla 0 träffar? Det förra, anser vi nog båda.
 
Jag tog upp frågan med anledning av den nu pågående tråden i Avancerade funktioner för publicering på Internet, där jag efterlyser parallellsökning i flera databaser av skiftande kvalitet och innehåll. Då är det nödvändigt att jag kan vara just så exakt i min fråga som mina egna uppgifter medger, oberoende av hur innehållsrik varje tillfrågad databas är. Jag skall inte behöva anpassa frågan till varje typ av källa som utnyttjats för den sammanställda databasen.
 
Det finns fält där tom sträng inte nödvändigtvis behöver betyda uppgift okänd på grund av brister i källmaterialet, utan snarare betyder just att uppgiften är känd för att vara blank. Ett exempel är fältet yrke när posten avser hemmavarande hustru eller minderårigt barn. Om jag söker efter skomakare i en databas byggd på en husförhörslängd, så är jag intresserad av alla vuxna män vilkas yrke antingen angivits till skomakare eller utelämnats. Jag är däremot inte intresserad av alla hustrur och minderåriga barn.
 
Posterna i en databas bör därför vara kodade på ett sådant sätt, att man vid sökning kan skilja mellan ? (okänd uppgift) och N/A (not applicable, uppgift ej tillämplig). Den tomma strängen  är ett oklart substitut för båda dessa betydelser, och bör undvikas. Förhoppningsvis tänker man på detta när posterna kodas i XML.