Corso di information retrieval

Nei giorni in cui vi prende l'ispirazione hi-tech...prendete in mano la tastiera e sfogatevi qui!

Moderatori: cb_123, tonertemplum

Re: Corso di information retrieval

Messaggiodi diegofio il 05 mag 2008, 21:47

grassie
diegofio
AmdPlanet Guru
AmdPlanet Guru
 
Messaggi: 9270
Iscritto il: 29 lug 2005, 09:55

 

Re: Corso di information retrieval

Messaggiodi diegofio il 10 mag 2008, 13:34

LEZIONE #3: INDICIZZAZIONE

Dopo aver introdotto i concetti principali vediamo come funziona un sistema di reperimento dell'informazione. Abbiamo detto sinora che i documenti sono spesso veramente tanti, contengono una valanga di informazione e che l'utente non sempre si comporta nel modo che noi vogliamo. Dobbiamo perciò trovare un modo per far interagire sistema automatico e persona in breve tempo e con la massima efficacia.

Risulta evidente che come appena accennato sarebbe impossibile ricercare in tempi brevi l'informazione all'interno di migliaia e più documenti, urge trovare un metodo valido. Il primo che probabilmente vi verrà in mente è quello corretto: si fa una sorta di riassunto del contenuto informativo di ciascun documento della collezione. Come è possibile fare questo riassunto? Semplicemente per ciascun documento si prendono le parole chiave, quelle che meglio identificano quale informazione porta il documento. Ad esempo in un documento che parlerà degli interessi di snakeita probabilmente la parola second life rivestirà un ruolo importante e ben descriverà il contenuto informativo del documento (sempre che possa esistere un documento del genere :lol: ).
Va da se' che questa fase, chiamata indicizzazione riveste un ruolo fondamentale, anzi diciamo pure che è quella più importante: se scegliete male le parole chiave, probabilmente documenti che sarebbero rilevanti per la ricerca dell'utente non verrebbero nemmeno reperiti perchè associati a descrittori (le parole chiave, appunto) che male identificano ciò che il documento contiene.

Il risultato dell'indicizzazione come potete intuire è un indice, ovvero una particolare struttura che per ogni parola chiave associa tutti i documenti che in qualche modo c'entrano con essa. Come un descrittore può essere associato a uno o più documenti, ovviamente ad un documento saranno associati uno o più descittori (in un documento su snake avremo second life, schede video, gn***a, pc, giochi, eccetera).

Questo indice deve essere realizzato in modo che la ricerca in esso sia estremamente veloce, il tempo di accesso al descrittore deve essere più fulmineo possibile. Per chi ha dimestichezza, si usano in questo caso alberi e tabelle hash e il tutto (non la collezione ovviamente) sta in memoria centrale (la RAM): questo vale sicuramente per i singoli descrittori, mentre le liste che ad ognuno associano i vari documenti spesso sono su disco assieme ai documenti stessi, per problemi di spazio.
diegofio
AmdPlanet Guru
AmdPlanet Guru
 
Messaggi: 9270
Iscritto il: 29 lug 2005, 09:55

Re: Corso di information retrieval

Messaggiodi Ibanez89 il 10 mag 2008, 14:29

interessante... quindi gli indici vengono contenuti in ram? Non ho ben capito quest'ultimo passaggio
CiAo DanIele...

Immagine
Pentium4 Northwood HT 2.6@3000 "230*13" vcore def [RIP] King Value 512*2 200@230 cas2@3 Ati x800gto2@x850pe powered by Arctic Cooler [RIP] Mother ASRock P4VM900-SATA2 [RIP]
insomma poco alla volta mi si sta bruciando tutto :asd:

Immagine
Avatar utente
Ibanez89
AmdPlanet Guru
AmdPlanet Guru
 
Messaggi: 5563
Iscritto il: 15 apr 2006, 17:31
Località: Corato (BA)

Re: Corso di information retrieval

Messaggiodi diegofio il 10 mag 2008, 15:26

i descrittori, ovvero le singole parole chiave vengono tenute in ram. la struttura che li collega ai documenti (praticamente vedilo come un array per ogni descrittore in cui ad ogni cella corrisponde un documento che contiene quel descrittore) viene mantenuto nella maggior parte dei casi su disco.
con indice si intende tutta la struttura, quindi per rispondere alla tua domanda una parte sta in ram l'altra su disco
diegofio
AmdPlanet Guru
AmdPlanet Guru
 
Messaggi: 9270
Iscritto il: 29 lug 2005, 09:55

Re: Corso di information retrieval

Messaggiodi Ibanez89 il 10 mag 2008, 16:07

grazie mille...
CiAo DanIele...

Immagine
Pentium4 Northwood HT 2.6@3000 "230*13" vcore def [RIP] King Value 512*2 200@230 cas2@3 Ati x800gto2@x850pe powered by Arctic Cooler [RIP] Mother ASRock P4VM900-SATA2 [RIP]
insomma poco alla volta mi si sta bruciando tutto :asd:

Immagine
Avatar utente
Ibanez89
AmdPlanet Guru
AmdPlanet Guru
 
Messaggi: 5563
Iscritto il: 15 apr 2006, 17:31
Località: Corato (BA)

Re: Corso di information retrieval

Messaggiodi Galai il 11 mag 2008, 20:27

ero rimasto un po' indietro... molto molto interessante diego :D
Sempre in Rete.....There is no place like 127.0.0.1

AmdPlanet ha bisogno di te    

World Community Grid AMD Planet Team

La Romagna suona.. L'Italia balla

Carica le tue foto su PixDiff il nuovo servizio di Hosting & Upload by AmdPlanet

Tutti dicono che sono una persona orribile....ma non è vero....Ho il cuore di un ragazzino.......in un vaso sulla scrivania!!!!


Immagine
Avatar utente
Galai
Moderatore
Moderatore
 
Messaggi: 12521
Iscritto il: 29 ago 2005, 14:11
Località: Cesena

Re: Corso di information retrieval

Messaggiodi diegofio il 16 mag 2008, 16:00

LEZIONE #4: L'INTERROGAZIONE DELL'UTENTE

Abbiamo visto che per ricercare all'interno di grandi quantità di dati sono necessarie delle strutture che raccolgano le informazioni fondamentali contenuti all'interno della collezione. Queste strutture sono chiamate indici che contengono le parole chiave denominate descrittori.

Avrete probabilmente intuito che esiste una sorta di simmetria in un sistema di reperimento dell'informazione tra utente e macchina o meglio, tra client e server: da una parte l'utente che ricerca informazioni (il client) dall'altro il sistema che cerca di scovarle in breve tempo e in modo efficace (il server). Dopo aver riassunto cosa accade a lato server vediamo ora che processi esistono a lato cliente.
L'utente come ovvio si assume (sempre in informatica occorre studiare il caso peggiore) non sappia una mazza: formulerà la sua richiesta (interrogazione) nel modo che a lui è più consono, ovvero nel suo linguaggio naturale. Da questa il sistema deve essere in grado di effettuare una interpretazione e di conseguenza ricavare le informazioni.

Capite bene che il compito è molto difficile, pensate ad esempio agli errori di ortografia, alla gestione dei sinonimi o alla polisemia (stessa parola più significati), cose che si differenziano a loro volta per ogni diversa lingua del pianeta. Se uno cerca "Ibanez" si rivolge all'ambito musicale o al noto utente di amdplanet? Boh!
Quello che si fa in sostanza è lo stesso procedimento che è attuato sulla collezione, ovvero si divide la frase inserita dall'utente in tanti termini (ad esempio le parole che la compongono, ma anche combinazioni di più parole). Quello che se ne fa è molto semplice: ottenuti i termini, basterà confrontarli con i descrittori presenti nel nostro indice (e ricordiamo estrapolati dalla collezione); sappiamo che ad ogni descrittore abbiamo la lista dei documenti che lo contengono. Bene, se il descrittore appare anche nell'interrogazione dell'utete inviamo come risultato i documenti che fanno parte di quella lista.
Questo è un primo scheletro del funzionamento di un sistema di reperimento dell'informazione, il tutto come vedremo potrà essere raffinato in funzione di ottenere una maggiore efficacia. Infatti per quello che abbiamo visto sinora se un utente invia l'interrogazione "Golf" gli verranno restituiti dal sistema tutti i documenti che contengono il descrittore "Golf": posso ottenere documenti della collezione che trattano dello sport, ma anche della nota automobile, dell'abbigliamento.... insomma non un mostro di efficacia.

Lo so che stai provando a cercare "Golf" su google :lol:
diegofio
AmdPlanet Guru
AmdPlanet Guru
 
Messaggi: 9270
Iscritto il: 29 lug 2005, 09:55

Re: Corso di information retrieval

Messaggiodi diegofio il 16 mag 2008, 16:02

se non capite qualcosa chiedete mi pare sia tutto molto semplice come avevo scritto prima di iniziare ;)
diegofio
AmdPlanet Guru
AmdPlanet Guru
 
Messaggi: 9270
Iscritto il: 29 lug 2005, 09:55

Re: Corso di information retrieval

Messaggiodi Ibanez89 il 16 mag 2008, 22:19

bella :p aspettiamo le prossime :)
CiAo DanIele...

Immagine
Pentium4 Northwood HT 2.6@3000 "230*13" vcore def [RIP] King Value 512*2 200@230 cas2@3 Ati x800gto2@x850pe powered by Arctic Cooler [RIP] Mother ASRock P4VM900-SATA2 [RIP]
insomma poco alla volta mi si sta bruciando tutto :asd:

Immagine
Avatar utente
Ibanez89
AmdPlanet Guru
AmdPlanet Guru
 
Messaggi: 5563
Iscritto il: 15 apr 2006, 17:31
Località: Corato (BA)

Re: Corso di information retrieval

Messaggiodi Galai il 17 mag 2008, 10:02

si si.. tutto chiaro e semplice..
Sempre in Rete.....There is no place like 127.0.0.1

AmdPlanet ha bisogno di te    

World Community Grid AMD Planet Team

La Romagna suona.. L'Italia balla

Carica le tue foto su PixDiff il nuovo servizio di Hosting & Upload by AmdPlanet

Tutti dicono che sono una persona orribile....ma non è vero....Ho il cuore di un ragazzino.......in un vaso sulla scrivania!!!!


Immagine
Avatar utente
Galai
Moderatore
Moderatore
 
Messaggi: 12521
Iscritto il: 29 ago 2005, 14:11
Località: Cesena

Re: Corso di information retrieval

Messaggiodi jed il 17 mag 2008, 22:37

grande !! grazie alle tue lezioni diverse cose adesso sono molto piu' chiare :D :D molto interessante ed istruttivo.... bravo =D> =D>
Avatar utente
jed
Saggio del pianeta
Saggio del pianeta
 
Messaggi: 536
Iscritto il: 01 feb 2008, 18:57
Località: pieve di teco (IM)

Re: Corso di information retrieval

Messaggiodi diegofio il 18 mag 2008, 22:59

esagerato..grazie
diegofio
AmdPlanet Guru
AmdPlanet Guru
 
Messaggi: 9270
Iscritto il: 29 lug 2005, 09:55

Re: Corso di information retrieval

Messaggiodi diegofio il 24 mag 2008, 12:05

LEZIONE #5: VISIONE DI INSIEME

Allora spero la prof non sia iscritta ad amdplanet perchè inserisco una immagine del suo libro:
0006.jpeg
Schema del processo di reperimento dell'informazione
0006.jpeg (26.45 KIB) Osservato 27013 volte

scusate la qualità ma così resta leggera.
Quello che vedete sopra è per l'appunto lo schema di un sistema di reperimento, in questo modo possiamo riassumere quanto detto sinora: come vedete e come detto in precedenza tra utente (a sinistra) e sistema (a destra) la struttura è simmetrica, infatti questo schema viene detto "ad U".
A sinistra vediamo un utente che presenta una esigenza informativa, ovvero vuole ricercare qualcosa all'interno di una collezione di documenti che si trovano dall'altro lato della figura. Attraverso l'ormai noto processo di indicizzazione viene prodotto un indice che rappresenta il contenuto informativo di tutta la collezione (bene o male, questo dipende da come viene fatta l'indicizzazione): come sappiamo il risultato è una serie di termini (descrittori) collegate mediante una struttura dati ai documenti che li contengono.
Dall'altra parte abbiamo il processo simmetrico che agisce sulla stringa di testo inserita dall'utente: viene analizzata e su di essa si ricavano altri descrittori; a questo punto rimane da fare il confronto tra i descrittori presenti nell'indice della collezione e quelli ricavati dall'interrogazione dell'utente, se ne vengono trovati di uguali, il sistema reperisce i documenti ad essi associati e li restituisce all'utente.

Altra immagine di bassa qualità [bigsmile] :
0007.jpeg
Elementi e processi del reperimento dell'informazione
0007.jpeg (18.75 KIB) Osservato 27012 volte

dovete fare un piccolo sforzo perchè in questa immagine che come al solito presenta una simmetria, l'utente sta a destra e il server a sinistra, a differenza di quella precedente dove avveniva il contrario.
Prima di spiegare in breve cosa significhi quella roba vi dico due tre cosette: con materializzazione si intende il processo per il quale l'informazione (contenuta poi nei documenti della collezione) e l'esigenza informativa (dell'utente) sono espresse rispettivamente in documenti ed interrogazioni. Niente paura tutto al solito molto semplice: da una parte, al server, abbiamo una certa quantità di informazione che deve essere posta in "formato documento", ad esempio se il sistema è automatico i documenti dovranno essere in forma digitale. In sostanza il sistema deve essere ovviamente in grado di reperire questa informazione e il pc che legge la carta non mi pare molto comodo. Dall'altra parte abbiamo il povero utente che ha una esigenza informativa: bene la materializzazone in sto caso è il processo che lo stesso utente fa per convertire la sua esigenza che si trova nella sua mente in una interrogazione al sistema. Dovrebbe essere chiaro, come vedete il risultato della materializzazione è un documento da una parte (elaborabile dal pc) e una interrogazione dall'altra (anch'essa necessaria perchè il pc non può certo elaborare la mente dell'utente).
Dai documenti come sappiamo ricaviamo i descrittori, così come dall'interrogazione dell'utente e questi dovranno essere confrontati al fine di reperire i documenti più rilevanti.
La roba al centro: come già detto qualche tempo fa è impossibile stabilire con precisione assoluta per un sistema automatico la reale rilevanza dei documenti restituiti per l'utente, proprio perchè non possiamo entrare nella sua testa e perchè la rilevanza dei documenti cambia nel tempo, un utente può giudicare a mezzogiorno rilevante una cosa e alle 15 no, questo perchè in quelle tre ore probabilmente ha migliorato le sue conoscenze, e il documento non gli porta alcuna informazione in più, cosa che poteva avvenire a mezzogiorno. Quindi in sostanza la rilevanza non è facile da trovare, ma si trova, con una certa incertezza, altrimenti saremmo messi molto male.
diegofio
AmdPlanet Guru
AmdPlanet Guru
 
Messaggi: 9270
Iscritto il: 29 lug 2005, 09:55

Re: Corso di information retrieval

Messaggiodi diegofio il 31 mag 2008, 21:15

devo interrompere fino a quando non mi ritorna la multifunzione dall'assistenza scusate
diegofio
AmdPlanet Guru
AmdPlanet Guru
 
Messaggi: 9270
Iscritto il: 29 lug 2005, 09:55

Re: Corso di information retrieval

Messaggiodi Ibanez89 il 31 mag 2008, 22:02

diegofio ha scritto:devo interrompere fino a quando non mi ritorna la multifunzione dall'assistenza scusate


:asd: copione

scherzo... dai, nn vediamo l'ora di continuare :D
CiAo DanIele...

Immagine
Pentium4 Northwood HT 2.6@3000 "230*13" vcore def [RIP] King Value 512*2 200@230 cas2@3 Ati x800gto2@x850pe powered by Arctic Cooler [RIP] Mother ASRock P4VM900-SATA2 [RIP]
insomma poco alla volta mi si sta bruciando tutto :asd:

Immagine
Avatar utente
Ibanez89
AmdPlanet Guru
AmdPlanet Guru
 
Messaggi: 5563
Iscritto il: 15 apr 2006, 17:31
Località: Corato (BA)

 
PrecedenteProssimo

Torna a Guide

Chi c’è in linea

Visitano il forum: Nessuno e 0 ospiti