xpdfを使ってPDFから日本語抽出をする話の2017年度版

TeXで原稿を書いている。文字数を数える機能がTeXにはないので(設計思想がそもそも違うと言うか),PDFから日本語文字数をカウントする。

で,うろうろしていてこのサイトに行き着いた。

xpdfを使ってPDFから日本語抽出

基本的にこれで問題解決なんだけど,HomebrewがOS X El Capitan以降は権限周りが少し変わったらしくて,インストールされる場所が違うみたい。

ともかく,brewを再インストールしてから,xpdfを入れる。

で,日本語対応するためには/usr/local/share/xpdf/japaneseに日本語対応ファイルを入れるんだけど,pdfが/usr/local/Cellar/xpdf/に入っちゃっているので,その辺を読み直さないといけない。

xpdfrcも次のように書いたらうまくいった。

textEncoding     UTF-8


#----- begin Japanese support package (2011-sep-02)
cidToUnicode    Adobe-Japan1    /usr/local/Cellar/xpdf/japanese/Adobe-Japan1.cidToUnicode
unicodeMap  ISO-2022-JP /usr/local/Cellar/xpdf/japanese/ISO-2022-JP.unicodeMap
unicodeMap  EUC-JP      /usr/local/Cellar/xpdf/japanese/EUC-JP.unicodeMap
unicodeMap  Shift-JIS   /usr/local/Cellar/xpdf/japanese/Shift-JIS.unicodeMap
cMapDir     Adobe-Japan1    /usr/local/Cellar/xpdf/japanese/CMap
toUnicodeDir            /usr/local/Cellar/xpdf/japanese/CMap
#fontFileCC    Adobe-Japan1    /usr/..../kochi-mincho.ttf
#----- end Japanese support package