Wikipedia este cea mai mare enciclopedie care a existat vreodata, pentru ca toata lumea poate contribui la baza de cunostinte. Pentru a putea lucra cu datele, trebuie sa le importi.

Voi arata cum sa faca acest lucru pe Debian Jessie, dar ar trebui sa fie usor de adaptat si la alte distributii.

Instalarea Percona Server

Daca aveti deja un set-up MySQL corespunzatoar, puteti sari peste aceasta sectiune. Se poate folosi Percona Server - MySQL un fork construit in Handlersocket sau TokuDB si un motor InnoDB bine pus la punct.

Instalati Percona

wget https://repo.percona.com/apt/percona-release_0.1-3.jessie_all.deb dpkg -i percona-release_0.1-3.jessie_all.deb

Instalati serverul MySQL

apt-get update apt-get install percona-server-server-5.7

Adaugati urmatoarele linii in [mysqld]sectiunea /etc/mysql/my.cnf:

innodb_file_per_table collation_server = utf8_general_ci character_set_server = utf8 skip-character-set-client-handshake

Descarca Wikipedia

Descarca Wikipedia in limba engleza:

wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles-multistream.xml.bz2

Acum descarcati MWDumper, pe care il folosim pentru a transforma fisierele XML in instructiuni SQL:

wget https://dumps.wikimedia.org/tools/mwdumper.jar

Autentificare in MySQL si de a crea o noua baza de date:

CREATE DATABASE wiki;

Acum, descarcati si instalati schema tabelei din tabelul oficial mediawiki:

wget -O create-mediawiki.sql mysql wiki < create-mediawiki.sql

Si, in cele din urma importa datele Wikipedia:

bunzip2 -c enwiki-latest-pages-articles-multistream.xml.bz2 | \ java -jar mwdumper.jar --format=sql:1.25 | mysql wiki

În cele din urma puteti elimina enwiki-latest-pages-articles-multistream.xml.bz2 :

rm enwiki-latest-pages-articles-multistream.xml.bz2

Daca vedeti o eroare de genul ERROR 1054 (42S22) at line 84: Unknown column 'page_counter' in 'field list' sau similara, ar trebui sa verificati parametrul the --format=... .

Trimite-ne o stire
  • Care este reactia ta?
  • powered by Verysign
  • like GNU/Linux.ro
    Like
  • unmoved GNU/Linux.ro
    unmoved
  • amused GNU/Linux.ro
    amused
  • excited GNU/Linux.ro
    excited
  • angry GNU/Linux.ro
    angry
  • sad GNU/Linux.ro
    sad
TENDINTA  |  Red Hat Enterprise Linux 7.8
Andreea                   GNU/Linux.ro
Andreea
"Rome wasn't built in a day" !
109 articole



  • Comenteaza
  • powered by Verysign

Nici un comentariu inca. Fii primul!