cercador de contingut a guifi.net

S'ha escollit mnogosearch ja que suporta indexació d'FTPs i està a Debian. Tot i que el seu fill dataparksearch semble que prometi més.

cd /tmp/
sudo wget http://graciasensefils.net/guuifi/guuifi.tar.bz2
cd /var/www/
sudo tar xvjpf /tmp/guuifi.tar.bz2
cd /tmp/

sudo aptitude -y install mnogosearch-mysql

# Overwrite mnogosearch configuration files? No
# Automatically configure the database for mnogosearch? No

# Semble que el paquet no crea correctament la base de dades, per tant amb les següents instruccions es crea:
PASSWORD="secret-password"
echo "create database mnogosearch;" | mysql -u root -p
echo "grant usage on *.* to mnogosearch@localhost identified by '$PASSWORD';" | mysql -u root -p
echo "grant all privileges on mnogosearch.* to mnogosearch@localhost;" | mysql -u root -p
mysql mnogosearch -u mnogosearch -p < /usr/share/mnogosearch/tables/mysql/create.multi.sql

# Semble que el paquet instal·lat no suporta robots.txt per FTP
# per tant recompilem el paquet amb un padaç

# Instal·lar paquets necessaris per compilar
sudo aptitude -y install cdbs libpq-dev libmysqlclient15-dev libsqlite0-dev openjade docbook docbook-dsssl

apt-get source mnogosearch

# Aplicar parche per tenir suport de robots.txt per FTP
patch -p0 -b < /var/www/guuifi/ftprobots-mnogosearch-3.3.7-3.patch

cd mnogosearch-3.3.7
dpkg-buildpackage

# Desistal·lar paquets necessaris per compilar
sudo aptitude -y purge cdbs comerr-dev docbook docbook-dsssl libkadm55 libkrb5-dev libmysqlclient15-dev libosp5 libostyle1c2 libpq-dev libsqlite0 libsqlite0-dev openjade sgml-data

cd ..
sudo dpkg -i mnogosearch-mysql_3.3.7-3_i386.deb
sed -e "s/_SECRET-PASSWORD_/$PASSWORD/g" /var/www/guuifi/mnogosearch.config.patch | sudo patch -b -p0
sudo patch -b -p0 < /var/www/guuifi/mnogosearch.config.patch
sudo touch /etc/mnogosearch/urls
sudo chown www-data /etc/mnogosearch/urls

# Visit  http://localhost/guuifi/addsite and add sites.

sudo indexer
Alternativa dpsearch:

Com instal·lar el motor de cerca dataparksearch

Introducció

En aquesta pàgina s'explicarà l'instal·lació de un cercador de pàgines web i continguts ftp.
El motor de cerca que s'ha triat és Data Park Search, perquè compleix amb les necessites que busquem ja que pot indexar continguts tant ftp com http.
En aquest enllaç de la wikipedia trobareu diferents motors de cerca perquè trieu el que més us convengui.

Requeriments

Per muntar el cercador es necessita un servidor apache, una base de dades, eines de compilació i un interpret de perl.

$ su
[contrasenya]
# aptitude install apache2 mysql-server build-essential zlib1g-dev aspell-dev

Respecte al hardware, s'ha muntat en pentium IV 1,8 GHZ 512 MB de RAM i un disc dur de 80 GB.
Nota: l'indexació de la mediateca de La Quimera ocupa 1,2 GB.

Descàrrega

Ens baixarem l'arxiu comprimit amb les fonts del motor d'aquest enllaç i lo descomprimim amb:

$ tar -jxf dpsearch-x.x.tar.bz2

Instal·lació

Entrem al directori:

$ cd dpsearch-xx

preparem l'entorn per compilar, en aquest cas amb suport per mysql:

$ ./configure --with-mysql

compilem:

$ make

i lo instal·lem com root

$ su
[contrasenya]
# make install

El directori per defecte serà /usr/local/dpsearch/

A continuació, s'ha de crear amb el phpmyadmin una base de dades para l'indexació dels continguts, que en aquest cas serà search.

Configuració

Dins del directori /usr/local/dpsearch/etc/ es troben tots els fitxers de configuració, amb una terminació .conf-dist i .htm-dist (cached.conf-dist, indexer.conf-dist, langmap.conf-dist, opensearch.htm-dist, rss.htm-dist, searchd.conf-dist, search.htm-dist, sections.conf-dist, stopwords.conf-dist, stored.conf-dist, storedoc.htm-dist).
Els més importants son:

  • indexer.conf-list
  • search.htm-list

i s'han de renombrar treiem com indexer.conf i search.htm:
code

# cd /usr/local/dpsearch/etc
# mv indexer.conf-list indexer.conf
# mv search.htm-list search.htm

Movem l'arxiu search.cgi al directori cgi-bin del servidor web, en aquest cas, /usr/lib/cgi-bin:

# mv search.cgi /usr/lib/cgi-bin/

S'ha de crear dins del directory /usr/local/dpsearch/etc/ un arxiu amb el nom urls on especificarem les adreces que volem indexar.

A continuació modificarem l'arxiu indexer.conf:

DBAddr		mysql://usuari_bbdd:contrasenya_bbdd@localhost/search/?dbmode=single

S'ha de mirar de modificar el paràmetre del mode (single, multi, crc o cache) i ajustar-ho a les nostres necessitats.
Descomentar el UTF-8 en la coficació:

LocalCharset UTF-8

El mínim número de lletres que ha de tenir una paraula per ser indexada i així evitar articles, preposicions…

MinWordLength 3

Indexació

$ /usr/local/dpsearch/sbin/indexer

Arxius de configuració

desenvolupament/cercador/inici.txt · Darrera modificació: 2010/06/28 09:16 per sim6
Creative Commons License Valid CSS Driven by DokuWiki Valid XHTML 1.0