まこTech

現役インフラエンジニアの、趣味や依頼のエンジニアリング日記

Tesseract OCRのインストール、お試しまで

はじめに

趣味の開発で、機械学習を用いたテキスト分類をしています。
その学習データである文書を用意するのに「画像からの文字抽出」が必要になりました。
たとえばSNS上でシェアされている誰かのチャット画面のスクリーンショット画像から、文書を抽出して学習データに使用しています。
ここでは無料で使用できるOCRエンジンのTesseract OCRを使用していますので、使いたい方の参考になればとインストール方法をまとめます。
f:id:mshirakawakun:20210703221952p:plain

Tesseract OCRとは

Wikipediaでは以下のように紹介されています

Tesseract (テッセラクト)は、さまざまなオペレーティングシステム上で動作する光学式文字認識エンジン。名称のTesseractとは四次元超立方体の意である。Apache Licenseの下でリリースされたフリーソフトウェアである。文字認識を行うライブラリと、それを用いたコマンドラインインターフェイスを持つ。 もともとは1980年代にプロプライエタリソフトウェアとしてヒューレット・パッカードが開発していたが、2005年にオープンソースとしてリリースされ、開発は2006年からGoogleが後援している。 2006年、Tesseractは当時入手可能な最も正確なオープンソースOCRエンジンの1つと見なされた

ちなみにTesseractにはGUIが付属していないので、コマンドラインからコマンドを実行します。

インストール方法

以下のサイトからインストーラをダウンロードします。

github.com

64bitのインストーラをダウンロードします。
tesseract-ocr-w64-setup-v5.0.0-alpha.yyyymmdd.exe

インストーラをダウンロードしたら実行します。
基本的にデフォルトの設定で問題ないですが、日本語をOCR処理の対象いしたい場合以下のコンポーネントをチェックしダウンロードします。

Additional script data (download)

  • Japanese script
  • Japanese vertical script

Additional language data (download)

  • Japanese
  • Japanese(vertical)

間違えて「Javanese」を選択しないでください。

インストール方法は以上です。

パスを通す

Tesseractの実行はtesseractコマンドから行います。
デフォルトでは「C:\Program Files\Tesseract-OCR」がインストールディレクトリになるので、このパスを環境変数に追加しましょう。
Windowsの検索窓で"環境変数"を検索すると「システムのプロパティ」-「詳細設定」-「環境変数」と編集画面に移動できます。
そこでユーザー環境変数かシステム環境変数のどちらかの"Path"を編集しTesseractのインストールディレクトリのパスを追加しましょう。

OCRを試す

以下の画像をOCR処理します。
よろしければ画像をダウンロードしてお試しください。

f:id:mshirakawakun:20210703222154j:plain

基本的なコマンドは以下になります。(画像のファイル名はimage.pngとします)

tesseract image.png output -l jpn

実行すると、output.txtが生成され、開くと認識されたテキストが確認できるはずです。

最後に

以上、簡単にですがTesseract OCRのインストール方法と簡単な操作についてまとめました。
OCRができるといろいろなアイデアに応用できそうで夢が膨らみますね!
興味があればぜひみなさんも試してみてください。