MeCabはオープンソースの形態素解析エンジンで、Google 日本語入力開発者の一人である工藤拓氏によって開発されている。名称は開発者の好物「和布蕪(めかぶ)」から取られた。
by Wikipedia
今回は PHP の関数 mecab_split が使えるようになればOKとします。
以下の流れとなります。
% wget https://mecab.googlecode.com/files/mecab-0.996.tar.gz % tar zxfv mecab-0.996.tar.gz % cd mecab-0.996 % ./configure --enable-utf8-only % make % sudo make install
% mecab --version mecab of 0.996
% wget http://sourceforge.net/projects/mecab/files/mecab-ipadic/2.7.0-20070801/mecab-ipadic-2.7.0-20070801.tar.gz % tar zxvf mecab-ipadic-2.7.0-20070801.tar.gz % cd mecab-ipadic-2.7.0-20070801 % ./configure --with-mecab-config=/usr/local/bin/mecab-config --prefix=/usr/local/ --with-charset=utf8 % make % sudo make install
% ls -l /usr/local/lib/mecab/dic/ipadic
% wget https://github.com/downloads/rsky/php-mecab/php-mecab-0.5.0.tgz
% curl -L https://github.com/downloads/rsky/php-mecab/php-mecab-0.5.0.tgz -o php-mecab-0.5.0.tgz
% tar xzvf php-mecab-0.5.0.tgz % cd php-mecab-0.5.0 % phpize % ./configure --with-php-config=/usr/bin/php-config --with-mecab=/usr/local/bin/mecab-config % make % sudo make install
% ls -l /usr/lib64/php/modules/mecab.so
% sudo vi /etc/php.d/mecab.ini extension=mecab.so
% sudo service httpd reload
% php -r '$s = mecab_split("テストTEST日本の四季"); var_dump($s);' array(5) { [0]=> string(9) "テスト" [1]=> string(4) "TEST" [2]=> string(6) "日本" [3]=> string(3) "の" [4]=> string(6) "四季" }