« 【iPhone】アプリ4 iDic | トップページ | 【zaurus】mbookをzaurusの後継機種に »

2009.02.26

【iPhone】アプリ4の2 iDic用ウィキペディア辞書作成に挑戦

iDic用のウィキペディアについては、雑誌の付録で調達したことについては、すでに書いたとおりだ。このデータについては、ネットで検索すれば、どこかで調達することも可能なようだ。

しかしながら、自分でウィキペディアをepwing化し、iDicの辞書に変換する方法が紹介されているので、土日をつぶして、ウィキペディア日本語版のデータをepwing化し辞書データを作成することに挑戦してみた。何度も失敗し、環境も何回も作りなおしたが、最終的に、辞書データを作成する方法がわかったので、紹介したい。

1.前提条件

  • ウィキペディアの画像データについては取り込めれば便利だとは思うが、取り込む方法はわからなかった。画像データは放棄する。
  • 特殊な数式については、画像化して取り込むことができるようだが、何回もトライしたが、ImageMagickなどの設定方法がわからなかったので、数式の画像化もあきらめる。

というように画像化をあきらめれば、CygwinというWindowsXP上で動くLinux環境で、比較的簡単にiDic用の辞書に変換することができる。

ただし、辞書に変換するために、3時間半の時間が必要なので、事前準備も含めれば5時間以上の時間がかかることは覚悟しなければならない。

ちなみに、私のパソコンの環境は、2007年末に購入したもので

  • HP 6710b ノートブック WindowsXP
  • インテル® Celeron® プロセッサ 540(1MB L2キャッシュ、1.86 GHz、533MHz FSB)
  • メモリ 2GB

という環境なので、もう少し古いパソコンならば、かなり時間がかかることを覚悟しておいた方がよい。(変換作業は、寝ている間か、外出している間に行おう)

ここから先は、いろいろなアプリを入れるので自己責任でおねがいします。

※参考にしたサイト

たそぶろ iPod touchでウィキペディア(Wikipedia)を持ち歩く

特別編:wikipediaを入れてみる -iDic

あさりのみそしる ウィキペディアを持ち歩け! ~FreePWING を導入する~

2.事前準備

1)解凍ソフトLhaplusのインストール

今回の作業ではLinux系の圧縮ファイルtar.gzとかbz2を解凍しなければならない。

Lhaplusならば、どちらも解凍できるので、これをインストールしよう。

Lhaplusはこちらのサイトでダウンロードできる。

ファイルをダウンロード用のフォルダーにダウンロードし、ダブルクリックすればインストールが始まる。インストールしたら、関連づけで、個人的にはすべてにチェックを入れ、解凍先、圧縮先はアーカイブファイルと同じフォルダーに設定しておこう。

2)Cygwinのインストール

CygwinとはWindowsのパソコン上でLinux系のアプリケーションを動かすソフト。個人的には、これを入れると、なぜかパソコンが重くなるような気がして、あまり近寄りたくはないのだが、今回はLinux系のソフトを使うので、やむなくインストール。

Cygwinのダウンロードはこちらのページにある「Install Cygwin Now」をクリックする。

Setup.exeというものがダウンロードされるので、それをダブルクリックすれば、インストール作業が開始される。標準のまま「次へ」を選ぶと、途中でダウンロードサイトの一覧が表示される。それぞれ微妙に違うらしいが、よくわからないので一番上をクリックした。

「Select Package」というところで

-1.カテゴリーArchiveの項目にある「zip」がSKIPとなっていたらクリック。バージョンが表示されれば、インストールされる。以下同様に

-2.Devel:make

-3.Perlはカテゴリそのものをクリックして全部をインストールに変更

-4その他 .Utils:bzip2、WEB:wget、Devel:Patchなどが参考にしたサイトに紹介されていたが、特に今回は使用しない。

あとは、次へを選択してパソコンにインストール。完了直前にデスクトップにアイコンを作成するにチェックを入れる。

インストールが完了したら、デスクトップのアイコンをダブルクリックして、必ず一度起動させてみよう。

 ユーザー名@パソコン名

と表示されたらOK。「exit」と入力して終了させる。

3.Wikipedia関係のファイルのダウンロード

1)Wikipediaのデータのダウンロード

データがおかれている「Index of /jawiki/」のサイトのlatestフォルダーをクリックし、その中の「jawiki-latest-pages-articles.xml.bz2」というファイルをダウンロード

2)FreePWINGとwikipedia-fpwのダウンロード

Kazuhiro's blogの中で紹介されている最新のFreePWINGとwikipedia-fpwをダウンロード

4.ファイルの解凍

ダウンロードした3つのファイルを、右クリック>解凍>ここに解凍で解凍する。

「jawiki-latest-pages-articles.xmlフォルダーの中のjawiki-latest-pages-articles.xmlというファイル」を名前の変更で「wikipedia.xml」に変更し、「wikipedia-fpw-xxxxxxxxx」のフォルダーに移動する。

※もしも、「jawiki-・・・・・.xml」が「ほかの人またはプログラムで使用され」ているというようなコマンドが出て名前を変更できないときは、unlockerのサイトから、unlockerというソフトをダウンロード(下の方の「Unlocker 1.x.x - From this website」という行のところをクリック。窓の杜のレビュー)し、インストールしてみよう。クリックすると別ウインドウに一覧が表示され、ファイルを選択してunlockボタンを押すと、名前の変更や移動が可能になる。

5.設定の変更(数式の画像化をやめる)

「wikipedia-fpw-xxxx」のフィルダーの中にある「wikipedia-fpw.conf」というファイルをエディターで開く。メモ帳でもよいのだが、改行がうまく認識されないので、サクラエディターのパッケージ版などをインストールして開くと良い。

38行目の「  'enable_math' => 1,」を「  'enable_math' => 0,」に変更

6.解凍したファイルをコピー

Cygwinのフォルダーは標準では、C:\cygwinにあると思う。

さきほど解凍した「FreePWINGXXXX」「wikipedia-fpw-xxxx(wikipedia.xml入り)」のフォルダーを

C:\cygwin\home\ユーザー名\のフォルダーにコピーする。準備完了

7.Cygwinの作業開始

1)FreePWINGのインストール

Cygwinを起動し、以下のコマンドを入力

cd freepwing-1.6 

 (cdはchange directory free・・フォルダーに移動)

./configure

make ;make check ;make install

ここまででFreePWINGがインストールされる。

2)wikipediaの変換作業開始

上に続けて

cd ../wikipedia-fpw-20090220

fpwmake  ここで変換が始まる。待つこと3時間

fpwmake catalogs

fpwmake package ここで圧縮作業が行われる

以上の作業が完了すると「wikipedia-fpw-20090220.zip」というZIPファイルができで完了。

fpmakeを実行すると、見出しのチェックがはじまり、1087271項目(20090220版の場合)、次に、各項目の変換作業が始まり、1087271項目の変換が終わったのが、9156秒(2時間32分36秒)後、さらにそこから作業が続く。

zipファイルを解凍するとWIPというウィキペディアのepwing化された辞書ができあがる。

辞書を圧縮したい場合は、「たそぶろ iPod touchでウィキペディア(Wikipedia)を持ち歩く」

を参考にしてトライしてみてください。

cygwinの終了は「exit」を入力のこと。

さあ、これで、いつでもウィキペディアの最新版を使えるぞ!!

« 【iPhone】アプリ4 iDic | トップページ | 【zaurus】mbookをzaurusの後継機種に »

コメント

コメントを書く

コメントは記事投稿者が公開するまで表示されません。

(ウェブ上には掲載しません)

トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/4410/44186416

この記事へのトラックバック一覧です: 【iPhone】アプリ4の2 iDic用ウィキペディア辞書作成に挑戦:

« 【iPhone】アプリ4 iDic | トップページ | 【zaurus】mbookをzaurusの後継機種に »

最近のトラックバック

2015年7月
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31