Wikipedia este cea mai mare enciclopedie care a existat vreodata, pentru ca toata lumea poate contribui la baza de cunostinte. Pentru a putea lucra cu datele, trebuie sa le importi.
Voi arata cum sa faca acest lucru pe Debian Jessie, dar ar trebui sa fie usor de adaptat si la alte distributii.
Instalarea Percona Server
Daca aveti deja un set-up MySQL corespunzatoar, puteti sari peste aceasta sectiune. Se poate folosi Percona Server - MySQL un fork construit in Handlersocket sau TokuDB si un motor InnoDB bine pus la punct.
Instalati Percona
wget https://repo.percona.com/apt/percona-release_0.1-3.jessie_all.deb dpkg -i percona-release_0.1-3.jessie_all.deb
Instalati serverul MySQL
apt-get update apt-get install percona-server-server-5.7
Adaugati urmatoarele linii in [mysqld]
sectiunea /etc/mysql/my.cnf
:
innodb_file_per_table collation_server = utf8_general_ci character_set_server = utf8 skip-character-set-client-handshake
Descarca Wikipedia
Descarca Wikipedia in limba engleza:
wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles-multistream.xml.bz2
Acum descarcati MWDumper, pe care il folosim pentru a transforma fisierele XML in instructiuni SQL:
wget https://dumps.wikimedia.org/tools/mwdumper.jar
Autentificare in MySQL si de a crea o noua baza de date:
CREATE DATABASE wiki;
Acum, descarcati si instalati schema tabelei din tabelul oficial mediawiki:
wget -O create-mediawiki.sql mysql wiki < create-mediawiki.sql
Si, in cele din urma importa datele Wikipedia:
bunzip2 -c enwiki-latest-pages-articles-multistream.xml.bz2 | \ java -jar mwdumper.jar --format=sql:1.25 | mysql wiki
În cele din urma puteti elimina enwiki-latest-pages-articles-multistream.xml.bz2
:
rm enwiki-latest-pages-articles-multistream.xml.bz2
Daca vedeti o eroare de genul ERROR 1054 (42S22) at line 84: Unknown column 'page_counter' in 'field list'
sau similara, ar trebui sa verificati parametrul the --format=...
.