S'ha escollit mnogosearch ja que suporta indexació d'FTPs i està a Debian. Tot i que el seu fill dataparksearch semble que prometi més.
cd /tmp/ sudo wget http://graciasensefils.net/guuifi/guuifi.tar.bz2 cd /var/www/ sudo tar xvjpf /tmp/guuifi.tar.bz2 cd /tmp/ sudo aptitude -y install mnogosearch-mysql # Overwrite mnogosearch configuration files? No # Automatically configure the database for mnogosearch? No # Semble que el paquet no crea correctament la base de dades, per tant amb les següents instruccions es crea: PASSWORD="secret-password" echo "create database mnogosearch;" | mysql -u root -p echo "grant usage on *.* to mnogosearch@localhost identified by '$PASSWORD';" | mysql -u root -p echo "grant all privileges on mnogosearch.* to mnogosearch@localhost;" | mysql -u root -p mysql mnogosearch -u mnogosearch -p < /usr/share/mnogosearch/tables/mysql/create.multi.sql # Semble que el paquet instal·lat no suporta robots.txt per FTP # per tant recompilem el paquet amb un padaç # Instal·lar paquets necessaris per compilar sudo aptitude -y install cdbs libpq-dev libmysqlclient15-dev libsqlite0-dev openjade docbook docbook-dsssl apt-get source mnogosearch # Aplicar parche per tenir suport de robots.txt per FTP patch -p0 -b < /var/www/guuifi/ftprobots-mnogosearch-3.3.7-3.patch cd mnogosearch-3.3.7 dpkg-buildpackage # Desistal·lar paquets necessaris per compilar sudo aptitude -y purge cdbs comerr-dev docbook docbook-dsssl libkadm55 libkrb5-dev libmysqlclient15-dev libosp5 libostyle1c2 libpq-dev libsqlite0 libsqlite0-dev openjade sgml-data cd .. sudo dpkg -i mnogosearch-mysql_3.3.7-3_i386.deb sed -e "s/_SECRET-PASSWORD_/$PASSWORD/g" /var/www/guuifi/mnogosearch.config.patch | sudo patch -b -p0 sudo patch -b -p0 < /var/www/guuifi/mnogosearch.config.patch sudo touch /etc/mnogosearch/urls sudo chown www-data /etc/mnogosearch/urls # Visit http://localhost/guuifi/addsite and add sites. sudo indexer
En aquesta pàgina s'explicarà l'instal·lació de un cercador de pàgines web i continguts ftp.
El motor de cerca que s'ha triat és Data Park Search, perquè compleix amb les necessites que busquem ja que pot indexar continguts tant ftp com http.
En aquest enllaç de la wikipedia trobareu diferents motors de cerca perquè trieu el que més us convengui.
Per muntar el cercador es necessita un servidor apache, una base de dades, eines de compilació i un interpret de perl.
$ su [contrasenya] # aptitude install apache2 mysql-server build-essential zlib1g-dev aspell-dev
Respecte al hardware, s'ha muntat en pentium IV 1,8 GHZ 512 MB de RAM i un disc dur de 80 GB.
Nota: l'indexació de la mediateca de La Quimera ocupa 1,2 GB.
Ens baixarem l'arxiu comprimit amb les fonts del motor d'aquest enllaç i lo descomprimim amb:
$ tar -jxf dpsearch-x.x.tar.bz2
Entrem al directori:
$ cd dpsearch-xx
preparem l'entorn per compilar, en aquest cas amb suport per mysql:
$ ./configure --with-mysql
compilem:
$ make
i lo instal·lem com root
$ su [contrasenya] # make install
El directori per defecte serà /usr/local/dpsearch/
A continuació, s'ha de crear amb el phpmyadmin una base de dades para l'indexació dels continguts, que en aquest cas serà search.
Dins del directori /usr/local/dpsearch/etc/ es troben tots els fitxers de configuració, amb una terminació .conf-dist i .htm-dist (cached.conf-dist, indexer.conf-dist, langmap.conf-dist, opensearch.htm-dist, rss.htm-dist, searchd.conf-dist, search.htm-dist, sections.conf-dist, stopwords.conf-dist, stored.conf-dist, storedoc.htm-dist).
Els més importants son:
i s'han de renombrar treiem com indexer.conf i search.htm:
code
# cd /usr/local/dpsearch/etc # mv indexer.conf-list indexer.conf # mv search.htm-list search.htm
Movem l'arxiu search.cgi al directori cgi-bin del servidor web, en aquest cas, /usr/lib/cgi-bin:
# mv search.cgi /usr/lib/cgi-bin/
S'ha de crear dins del directory /usr/local/dpsearch/etc/ un arxiu amb el nom urls on especificarem les adreces que volem indexar.
A continuació modificarem l'arxiu indexer.conf:
DBAddr mysql://usuari_bbdd:contrasenya_bbdd@localhost/search/?dbmode=single
S'ha de mirar de modificar el paràmetre del mode (single, multi, crc o cache) i ajustar-ho a les nostres necessitats.
Descomentar el UTF-8 en la coficació:
LocalCharset UTF-8
El mínim número de lletres que ha de tenir una paraula per ser indexada i així evitar articles, preposicions…
MinWordLength 3
$ /usr/local/dpsearch/sbin/indexer