di diegofio il 05 mag 2008, 12:16
LEZIONE #2: DOCUMENTO, COLLEZIONE, RILEVANZA
Dopo aver introdotto il campo in cui ci muoveremo addentriamoci nella materia vera e propria e prima di tutto diamo la definizione del titolo della disciplina: reperimento dell'informazione identifica tutte le attività necessarie per scegliere, da una data collezione di documenti, quelli di interesse in relazione ad una specifica esigenza informativa di una persona.
Quindi abbiamo due ambiti fondamentali, la persona e il sistema vero e proprio che gli deve rispondere: la prima è alla ricerca di qualcosa che probabilmente si troverà nei documenti della nostra collezione, in pratica ricerca dell'informazione che risolva i suoi problemi di scarsa conoscenza di un determinato argomento come fate voi quando cercate qualcosa, inizialmente sapete ben poco, man mano che trovate documenti la vostra conoscenza aumenta; il sistema a sua volta dovrà essere in grado di rispondere fornendo nei limiti del possibile dei documenti che aumentino la conoscenza della persona, in pratica che gli diano delle informazioni aggiuntive.
Abbiamo introdotto alcuni termini che devono essere definiti meglio: il documento è un oggetto informativo che deve essere identificabile in modo univoco all'interno della collezione e che contiene dei dati che apportano informazione. A sua volta la collezione è costituita da un insieme finito di documenti all'interno dei quali si svolgerà la nostra ricerca. La collezione in cui Google effettua le sue ricerche contiene qualche miliardo di pagine web.
Il processo di ricerca non è molto semplice come sempre avviene quando da una parte c'è un essere umano e dall'altro un sistema automatico: infatti molto spesso l'utente non è esperto e le interrogazioni che sottoporrà saranno in un linguaggio che il sistema non è in grado di comprendere (per esempio una frase nella propria lingua).
Un secondo problema fondamentale è dato dalla rilevanza dei documenti restituiti dal sistema: esso infatti non sa in anticipo quali saranno i documenti che soddisferanno le esigenze informative dell'utente, sicuramente vi sarà successo di avere come risposta da un motore di ricerca dei link che a voi non apportano nessuna informazioni perchè non coerenti con quello che stavate cercando, oppure contenenti delle cose che sapevate già.
Ciò è dato dal fatto che la rilevanza non è qualcosa che un sistema automatico può giudicare in modo perfetto, perchè la vera rilevanza di un documento la sapete solo voi che state facendo la ricerca ed è impossibile sapere con certezza cosa frulla all'interno della testa della persona.
Inoltre se ben ci pensate la rilevanza di un documento varia nel tempo: ipotizziamo che voi cerchiate un qualcosa, man mano che proseguite e leggete materiale voi acquisite della conoscenza che vi permette di giudicare in modo diverso (non da incompetente totale ma dal punto di vista di qualcuno dopo qualche lettura sa già qualcosa sull'argomento) i documenti successivi; un testo che prima avreste giudicato rilevante dopo alcune letture di altri documenti potrebbe non esserlo più poichè, come prima accennato, potrebbe contenere delle cose che già sapevate dalla lettura di risultati precedenti forniti dal motore di ricerca.