2021-12-14

モニターアームのススメ

はじめに

コロナ禍になってからというもの、エンジニアに限らず在宅勤務になった方多いですよね。

在宅勤務はとにかく自由でよいものですよね！

通勤が無くなって寝る時間が増えたし、なにより家にいるので出社するより格段に自由があります。

私もお昼休憩の少し前から自炊したりなんかして、余裕のある生活ができるようになりました。

ただ如何せん、私は在宅はじめたての頃から腰痛・肩こり・眼精疲労を感じてどうも疲れてしまって悩んでいました。

月一程度でマッサージに行ったり勤務中にストレッチすると多少楽になりますが、それでは根本の解決になりません。

幸い原因はわかっていて、家の机が低いのでノートパソコンの画面が低く、私は常時覗き込むように首を曲げている姿勢で仕事をしていたからでした。

モニターアーム

これはどげんかせんといかん！と購入したのがモニターアーム！

ノートパソコンの画面を高くするだけならPCスタンドでよかったのですが、せっかくなら2つのモニターで業務効率を上げたい（メインモニターを高くすれば姿勢は解消されるだろう）と設置してみました。

次の写真は実際の私の仕事場です

f:id:mshirakawakun:20211214161755j:plain

リンク

リンクの商品は楽天1位の商品(2021/12/14現在)です。

感想としては、モニターアームを自分で使ったのは初めてですが、机の端を嚙むだけでもしっかり固定できたし思ったより自由に動かせます。

私はサイドテーブルを机にしていて使わないときは片づけるので、モニターをしっかり固定出来てかつコンパクトな形に動かせるようになりとても便利に感じました。

そして姿勢がよくなったので肩こりや腰痛もなくなったので、同じ悩みを持っている方にお勧め出来たらと本記事を執筆しました。

選び方

一点気になったところもあり、それは家族が使うときに視点の高さが合わないということです。

私が購入したモニターアームは高さが変えられないため、私には合っていましたが他の人には合いません。

それにせっかく買って自分に合わないのも困るので、できれば上下にも可動してしっかり固定できるタイプがいいと思います。

また、規格が持っているモニターと合うようにも気をつけてくださいね！

↓上下可動可能のモニターアーム

リンク

また、モニターアームが必要ないならPCスタンドがおすすめです

これも細かく角度調節できるとよいと思います。

↓角度調節可能のPCスタンド

リンク

最後に

以上、私が実感した在宅快適グッズでした！

こういったツールひとつで在宅勤務の快適性は大きく改善します。

もし姿勢や体調の悩みがある方の解決になれば幸いです。

ここまでお読みいただきありがとうございました。

2021-10-28

AWS SAAの勉強方法・合格体験記

はじめに

2021/10/16にAWS SAAを受験し合格しました。

ここ1,2年ほどでAWSの案件に関わることが多くなり、実践だけだと偏りを感じたのでAWSの幅広い知識を身に着けたいと思うようになったことが受験理由です。

これからAWS SAAを受験したい方のためここに受験体験記を記します。

はじめに
AWS SAAとは
ギリギリの合格
使用した参考書・問題集
最後に

AWS SAAとは

f:id:mshirakawakun:20211028225356p:plain — Credlyのバッジ

このブログをご覧の方はご存知の方も多いと思いますが、AWSの認定試験で正式名称はAWS Certified Solutions Architect - Associateです。

aws.amazon.com AWS認定資格には4つのレベルがあり、全部で12種類の資格が存在しますがそのうちのひとつが今回受験したAWS SAAです。

内容としてはAWSのサービス全般の幅広い知識が問われ、レベルはアソシエイトレベルと難しすぎないため、システムの全体構成を考えるインフラエンジニアが最初に取得するのに適したAWS認定資格だと思います。

また、受験対象についてAWS公式サイトで下記のように記載されています。

AWS 認定ソリューションアーキテクト – アソシエイトは、AWS における、可用性があり、コスト効率が高く、高耐障害性で、スケーラブルな分散システムの設計に関する 1 年以上の実務経験を持つ方を対象としています。

また試験概要は以下になります。

f:id:mshirakawakun:20211028222311p:plain — 試験概要

受験申込はピアソンのサイトからで、問題数は全65問

料金約17,000円はクソ高いと思います。どうにかならないのか。

ちなみに私は今回コロナのこともありオンライン受験を選択しました。

オンライン受験は初めてでしたが、当日は遅刻の心配がないことからリラックスして前日徹夜できました。

部屋をきれいにしていて、あとは自由に使える私用のパソコンがあれば受験は難しくないと思うので、ぜひオンライン受験をおすすめします。

ギリギリの合格

勉強自体は約2か月前から始めていました。

後述する参考書を手に入れ、平日にお昼の30分ほどを使いながらななめ読みし1か月ほどで読み終えました。

その後はとにかくUdemyの問題集をやりこみましたが、仕事が忙しくなったこともあり時間がとれず4/6の量を1周しかできませんでした。

そのまま受験日を迎え、初めてのオンライン受験にドキドキしながら受験した結果…

……

720点以上合格の724点合格！

f:id:mshirakawakun:20211028221009p:plain — レポート

いや点数めっちゃギリギリやん。。。

なに偉そうに合格体験記書いてんねん。。。

使用した参考書・問題集

私のように、仕事で1年以上のAWS経験がある場合は正直Udemyの問題集で事足りるかと思います。

しかし、やはり参考書を読むと網羅的に幅広い知識が得られるので非常に面白くモチベーションになりました。

↓使用した参考書はこちら

リンク

↓電子書籍はこちら

リンク

↓Udemyの問題集はこちら

この問題集を何周もして、すべての模擬試験で合格点がとれるようになれば合格はほぼ間違いないと思います。

www.udemy.com

最後に

以上、AWS SAAの合格体験記でした。

今回点数はギリギリながらも仕事の合間を縫って勉強し合格できました。

資格はキャリアの武器にもなりますし持っていて損はないですし、有名な資格なので未経験でインフラエンジニアになりたい方にもおすすめできるかと思います。

これからAWS SAAの合格を目指す方は、ぜひ頑張ってほしいと思います。応援しています！

ここまでお読みいただき本当にありがとうございます。

2021-07-03

Tesseract OCRのインストール、お試しまで

はじめに

趣味の開発で、機械学習を用いたテキスト分類をしています。
その学習データである文書を用意するのに「画像からの文字抽出」が必要になりました。
たとえばSNS上でシェアされている誰かのチャット画面のスクリーンショット画像から、文書を抽出して学習データに使用しています。
ここでは無料で使用できるOCRエンジンのTesseract OCRを使用していますので、使いたい方の参考になればとインストール方法をまとめます。
f:id:mshirakawakun:20210703221952p:plain

はじめに
Tesseract OCRとは
インストール方法
パスを通す
OCRを試す
最後に

Tesseract OCRとは

Wikipediaでは以下のように紹介されています

Tesseract (テッセラクト)は、さまざまなオペレーティングシステム上で動作する光学式文字認識エンジン。名称のTesseractとは四次元超立方体の意である。Apache Licenseの下でリリースされたフリーソフトウェアである。文字認識を行うライブラリと、それを用いたコマンドラインインターフェイスを持つ。もともとは1980年代にプロプライエタリソフトウェアとしてヒューレット・パッカードが開発していたが、2005年にオープンソースとしてリリースされ、開発は2006年からGoogleが後援している。 2006年、Tesseractは当時入手可能な最も正確なオープンソース OCRエンジンの1つと見なされた

ちなみにTesseractにはGUIが付属していないので、コマンドラインからコマンドを実行します。

インストール方法

以下のサイトからインストーラをダウンロードします。

github.com

64bitのインストーラをダウンロードします。
tesseract-ocr-w64-setup-v5.0.0-alpha.yyyymmdd.exe

インストーラをダウンロードしたら実行します。
基本的にデフォルトの設定で問題ないですが、日本語をOCR処理の対象いしたい場合以下のコンポーネントをチェックしダウンロードします。

Additional script data (download)

Japanese script
Japanese vertical script

Additional language data (download)

Japanese
Japanese(vertical)

間違えて「Javanese」を選択しないでください。

インストール方法は以上です。

パスを通す

Tesseractの実行はtesseractコマンドから行います。
デフォルトでは「C:\Program Files\Tesseract-OCR」がインストールディレクトリになるので、このパスを環境変数に追加しましょう。
Windowsの検索窓で"環境変数"を検索すると「システムのプロパティ」-「詳細設定」-「環境変数」と編集画面に移動できます。
そこでユーザー環境変数かシステム環境変数のどちらかの"Path"を編集しTesseractのインストールディレクトリのパスを追加しましょう。

OCRを試す

以下の画像をOCR処理します。
よろしければ画像をダウンロードしてお試しください。

f:id:mshirakawakun:20210703222154j:plain

基本的なコマンドは以下になります。(画像のファイル名はimage.pngとします)

tesseract image.png output -l jpn

実行すると、output.txtが生成され、開くと認識されたテキストが確認できるはずです。

最後に

以上、簡単にですがTesseract OCRのインストール方法と簡単な操作についてまとめました。
OCRができるといろいろなアイデアに応用できそうで夢が膨らみますね！
興味があればぜひみなさんも試してみてください。

2021-07-02

CompTIA Security+の勉強方法

はじめに

2021/2/13、CompTIA Security+の501試験に合格しました。
f:id:mshirakawakun:20210702124005j:plain 受験した理由としては、インフラエンジニアとしての業務でシステムのセキュリティを意識することが多く、興味からセキュリティの体系的な知識を身に着けたいと思ったからです。
しかし記事執筆時点では国内でも新しいバージョンの601試験を受けられるそうで、これから受験を考えている方は601試験を受けるものと思いますが、後述する理由により501試験を受けたほうがいいかもしれません。
私が受験した試験は最新のものではありませんが、一度不合格になっている経験もあるため勉強方法についてここで簡単にアドバイスできればと思います。

はじめに
501と601の差異について
受験方法
勉強方法
TACのSecurity+ Web模擬試験
最後に

501と601の差異について

まず私が受験した501試験と最新の601試験の出題範囲についてです。

www.comptia.jp

CompTIAの公式サイトには以下のように比較されています。
f:id:mshirakawakun:20210702124204j:plain 見た感じは思ったよりも大きく変更があったようにみえますね…

受験方法

以下リンク先にも記載がありますが、受験はピアソンVUEのページから申し込み、ピアソンのテストセンターで受験を実施します。
受験チケットが税込みで￥46,000以上と高いです。もっと安くなって。

www.comptia.jp

また、私はテストセンターで受験しましたが自宅でのオンライン受験も可能なようです。
パソコンの性能やネットワーク速度が十分かの確認と思われますが、システムテストが必要なようです。
詳しくは以下のリンク先で確認してみてください。

www.pearsonvue.co.jp

勉強方法

私は昨年の2020年11月にも501試験を受験しその時は70点ほど足らず不合格となっています。
その時の勉強方法は以下のようなものでした。

TACの参考書を読み込む
TACの問題集をひたすら解く

f:id:mshirakawakun:20210702133634j:plain

私が受験した時期にはこの試験の日本語参考書・問題集が少なく、実質上記のものしか選択肢がありませんでした。
参考書は平日は業務後の30～40分、休日は60分ほど読み込み1か月ほどで読了しました。結構分厚いよね…
問題集は参考書に比べるとかなり薄く、少しずつ進めても2週間で終わります。
問題集を9割以上、完璧近くになるまで回しましたが実は問題の数が少ない上に実試験では問題集に載っていない問題が出ます。
ほぼ完璧と思える状態で受験して落ちた＆￥46,000以上の受験費用が無駄になったのでショックは大きかったです。
そこでググってみるとTACの「Security+ Web模擬試験」なるものがあることを知りました。
ググった感じ受験者の評判も良いようで、これで受かるならと受講期間2か月(￥6,800)のWeb模擬試験を申し込みました。
やっているだけで「あ、試験で意味わからなかった問題だ…」となり大変手応えを感じます。

www.tac-school.co.jp

結果2回目の試験で合格することができました。

失敗を踏まえてTACの問題集はいらなかったなと個人的に感じます。
これから勉強する人は

TACの参考書を読み込み知識理解
TACのSecurity+ Web模擬試験で正答率を9割以上

が効率的かなと思います。

TACのSecurity+ Web模擬試験

しかしこの模擬試験、現在501試験にしか対応していないようです。
601試験対応のものが出ればそちらを買えばよいですが、今は501対応のものしかないので、参考書と共に501試験に向けて準備したほうが良いのかな…

www.tac-school.co.jp

リンク

最後に

以上、CompTIA Security+合格に向けての勉強方法をまとめてみました。
試験のバージョンや対応書籍は更新されるので、最新の情報を確認しつつ参考にしていただければと思います。
ここで詳しくは書きませんが、セキュリティ初心者の私が資格のおかげもありセキュリティエンジニアの内定をいくつかいただいたくらいなので、セキュリティに興味のある方はぜひ取って損はない資格だと思います。
（ほかにやりたいことがあり結局セキュリティエンジニアにはなりませんでしたが…）
資格取得を考えている方は頑張ってください！応援しています。

2021-06-29

fastTextをUbuntuにインストールする

はじめに

WSLで用意したUbuntu 20.04.2 LTSの環境にfastTextをインストールします。
fastTextはfacebookが開発した、自然言語処理を行うための軽量なライブラリです。

fasttext.cc

f:id:mshirakawakun:20210629211813p:plain

はじめに
rootユーザにスイッチ
gitコマンドをインストール
コンパイラのインストール
インストールの確認
fastTextのインストール
最後に

rootユーザにスイッチ

以下コマンドを実行します。

sudo su -

gitコマンドをインストール

以下コマンドを実行します。

apt update
apt -y install git

コンパイラのインストール

fastTextをビルドするのに必要なパッケージをダウンロードします

apt -y install make gcc g++

インストールの確認

ここまででインストールしたコマンドの確認をします。
以下コマンドを実行し、バージョン情報が表示されることを確認します。

git --version
make -v
gcc -v
g++ -v

root@DESKTOP-UJ1HKO5:~# git --version
git version 2.25.1

root@DESKTOP-UJ1HKO5:~# make -v
GNU Make 4.2.1
Built for x86_64-pc-linux-gnu
Copyright (C) 1988-2016 Free Software Foundation, Inc.
License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html>
This is free software: you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.

root@DESKTOP-UJ1HKO5:~# gcc -v
Using built-in specs.
COLLECT_GCC=gcc
COLLECT_LTO_WRAPPER=/usr/lib/gcc/x86_64-linux-gnu/9/lto-wrapper
OFFLOAD_TARGET_NAMES=nvptx-none:hsa
OFFLOAD_TARGET_DEFAULT=1
Target: x86_64-linux-gnu
Configured with: ../src/configure -v --with-pkgversion='Ubuntu 9.3.0-17ubuntu1~20.04' --with-bugurl=file:///usr/share/doc/gcc-9/README.Bugs --enable-languages=c,ada,c++,go,brig,d,fortran,objc,obj-c++,gm2 --prefix=/usr --with-gcc-major-version-only --program-suffix=-9 --program-prefix=x86_64-linux-gnu- --enable-shared --enable-linker-build-id --libexecdir=/usr/lib --without-included-gettext --enable-threads=posix --libdir=/usr/lib --enable-nls --enable-clocale=gnu --enable-libstdcxx-debug --enable-libstdcxx-time=yes --with-default-libstdcxx-abi=new --enable-gnu-unique-object --disable-vtable-verify --enable-plugin --enable-default-pie --with-system-zlib --with-target-system-zlib=auto --enable-objc-gc=auto --enable-multiarch --disable-werror --with-arch-32=i686 --with-abi=m64 --with-multilib-list=m32,m64,mx32 --enable-multilib --with-tune=generic --enable-offload-targets=nvptx-none=/build/gcc-9-HskZEa/gcc-9-9.3.0/debian/tmp-nvptx/usr,hsa --without-cuda-driver --enable-checking=release --build=x86_64-linux-gnu --host=x86_64-linux-gnu --target=x86_64-linux-gnu
Thread model: posix
gcc version 9.3.0 (Ubuntu 9.3.0-17ubuntu1~20.04)

root@DESKTOP-UJ1HKO5:~# g++ -v
Using built-in specs.
COLLECT_GCC=g++
COLLECT_LTO_WRAPPER=/usr/lib/gcc/x86_64-linux-gnu/9/lto-wrapper
OFFLOAD_TARGET_NAMES=nvptx-none:hsa
OFFLOAD_TARGET_DEFAULT=1
Target: x86_64-linux-gnu
Configured with: ../src/configure -v --with-pkgversion='Ubuntu 9.3.0-17ubuntu1~20.04' --with-bugurl=file:///usr/share/doc/gcc-9/README.Bugs --enable-languages=c,ada,c++,go,brig,d,fortran,objc,obj-c++,gm2 --prefix=/usr --with-gcc-major-version-only --program-suffix=-9 --program-prefix=x86_64-linux-gnu- --enable-shared --enable-linker-build-id --libexecdir=/usr/lib --without-included-gettext --enable-threads=posix --libdir=/usr/lib --enable-nls --enable-clocale=gnu --enable-libstdcxx-debug --enable-libstdcxx-time=yes --with-default-libstdcxx-abi=new --enable-gnu-unique-object --disable-vtable-verify --enable-plugin --enable-default-pie --with-system-zlib --with-target-system-zlib=auto --enable-objc-gc=auto --enable-multiarch --disable-werror --with-arch-32=i686 --with-abi=m64 --with-multilib-list=m32,m64,mx32 --enable-multilib --with-tune=generic --enable-offload-targets=nvptx-none=/build/gcc-9-HskZEa/gcc-9-9.3.0/debian/tmp-nvptx/usr,hsa --without-cuda-driver --enable-checking=release --build=x86_64-linux-gnu --host=x86_64-linux-gnu --target=x86_64-linux-gnu
Thread model: posix
gcc version 9.3.0 (Ubuntu 9.3.0-17ubuntu1~20.04)

fastTextのインストール

以下のコマンドを実行し、/etcに移動します。

cd /etc
pwd

以下のコマンドを実行し、/etc直下にfasttextをインストールします。

git clone https://github.com/facebookresearch/fastText.git

root@DESKTOP-UJ1HKO5:/etc# git clone https://github.com/facebookresearch/fastText.git
Cloning into 'fastText'...
remote: Enumerating objects: 3854, done.
remote: Total 3854 (delta 0), reused 0 (delta 0), pack-reused 3854
Receiving objects: 100% (3854/3854), 8.22 MiB | 1.76 MiB/s, done.
Resolving deltas: 100% (2417/2417), done.

以下のコマンドを実行し、fasttextをビルドします。

cd fastText/
make

root@DESKTOP-UJ1HKO5:/etc/fastText# make
c++ -pthread -std=c++11 -march=native -O3 -funroll-loops -DNDEBUG -c src/args.cc
c++ -pthread -std=c++11 -march=native -O3 -funroll-loops -DNDEBUG -c src/autotune.cc
c++ -pthread -std=c++11 -march=native -O3 -funroll-loops -DNDEBUG -c src/matrix.cc
c++ -pthread -std=c++11 -march=native -O3 -funroll-loops -DNDEBUG -c src/dictionary.cc
c++ -pthread -std=c++11 -march=native -O3 -funroll-loops -DNDEBUG -c src/loss.cc
c++ -pthread -std=c++11 -march=native -O3 -funroll-loops -DNDEBUG -c src/productquantizer.cc
c++ -pthread -std=c++11 -march=native -O3 -funroll-loops -DNDEBUG -c src/densematrix.cc
c++ -pthread -std=c++11 -march=native -O3 -funroll-loops -DNDEBUG -c src/quantmatrix.cc
c++ -pthread -std=c++11 -march=native -O3 -funroll-loops -DNDEBUG -c src/vector.cc
c++ -pthread -std=c++11 -march=native -O3 -funroll-loops -DNDEBUG -c src/model.cc
c++ -pthread -std=c++11 -march=native -O3 -funroll-loops -DNDEBUG -c src/utils.cc
c++ -pthread -std=c++11 -march=native -O3 -funroll-loops -DNDEBUG -c src/meter.cc
c++ -pthread -std=c++11 -march=native -O3 -funroll-loops -DNDEBUG -c src/fasttext.cc
c++ -pthread -std=c++11 -march=native -O3 -funroll-loops -DNDEBUG args.o autotune.o matrix.o dictionary.o loss.o productquantizer.o densematrix.o quantmatrix.o vector.o model.o utils.o meter.o fasttext.o src/main.cc -o fasttext

最後に

fastTextのインストールが終わりました。
WSLを使用すると、WindowsマシンでfastTextを実行できて便利ですね！
他の記事でPythonを使ったfastTextの実行や、テキスト分類などのタスクを記載していきたいと思います。
ここまで読んでいただきありがとうございます。
指摘や感想をいただけると幸いです。

2021-06-29

Windows10上にWSLでLinux環境を用意する

f:id:mshirakawakun:20210629201622p:plain

はじめに

Linuxにしか対応していないソフトやライブラリをWindowsで使いたい時があります。
そんなときは、手持ちのWindowsマシン上でWSLの機能を使いLinux環境を用意しましょう。
ここではWSLの有効化、Linux(Ubuntu)のインストールを行っていきます。

はじめに
WSLの有効化
仮想マシン機能の有効化
WSLのパッケージをインストール
WSL2を既定のバージョンとして設定
Microsoft StoreからLinuxをインストールする
Linuxの起動、ユーザ・パスワード設定
最後に

WSLの有効化

コマンドプロンプトを管理者として実行し、以下のコマンドを実行します。

dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart

C:\WINDOWS\system32>dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart

展開イメージのサービスと管理ツール
バージョン: 10.0.19041.844

イメージのバージョン: 10.0.19042.1052

機能を有効にしています
[==========================100.0%==========================]
操作は正常に完了しました。

仮想マシン機能の有効化

WSL2をインストールする前に仮想マシンの機能を有効化する必要があります。コマンドプロンプトを管理者として実行し、以下のコマンドを実行します。

dism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart

C:\WINDOWS\system32>dism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart

展開イメージのサービスと管理ツール
バージョン: 10.0.19041.844

イメージのバージョン: 10.0.19042.1052

機能を有効にしています
[==========================100.0%==========================]
操作は正常に完了しました。

WSLのパッケージをインストール

以下のリンクからインストーラをダウンロードして実行します。

https://wslstorestorage.blob.core.windows.net/wslblob/wsl_update_x64.msi

f:id:mshirakawakun:20210629194749j:plain

f:id:mshirakawakun:20210629194705j:plain

f:id:mshirakawakun:20210629194733j:plain

WSL2を既定のバージョンとして設定

PowerShellで以下のコマンドを実行します。

wsl --set-default-version 2

PS C:\WINDOWS\system32> wsl --set-default-version 2
WSL 2 との主な違いについては、https://aka.ms/wsl2 を参照してください

Microsoft StoreからLinuxをインストールする

以下のリンクから希望するLinuxディストリビューションをダウンロードします。

https://aka.ms/wslstore

今回はUbuntuをインストールしました。

f:id:mshirakawakun:20210629194914j:plain

f:id:mshirakawakun:20210629194925j:plain

f:id:mshirakawakun:20210629194943j:plain

Linuxの起動、ユーザ・パスワード設定

インストールしたUbuntuを起動すると、ユーザ名とパスワードの設定が求められました。
ユーザの設定が成功すると、作成したユーザでコンソールが始動しました。
他のディストリビューションでも同様の流れかと思います。

f:id:mshirakawakun:20210629195125j:plain

ユーザ名とパスワードを入力します。

f:id:mshirakawakun:20210629195136j:plain

ちなみに、ある程度操作に慣れている方は用途別にコマンドを検索すればわかりますが、もしLinuxの操作になれていない方は、基本的な操作は書籍を参照し操作して学ぶと身につきやすいです。

リンク

最後に

WSLによるLinux環境の用意ができました。
WindowsマシンでLinux環境を動かせるとちょっとした動作の確認やLinux用のツールが扱えて便利ですね。
ここまで手順をご覧いただいてありがとうございます。
指摘や感想などありましたらコメントいただけると幸いです。

2021-06-19

Speech-to-TextとAmazon Transcribeの差異について

はじめに

英文スピーチの文字起こしを行うシステムが2つあり、それぞれ以下2つのAPIを使用しているとのことで処理結果にどのような差異があるか調査しました。

またせっかくなので共通点なども調べてみました。

Speech-to-Text
Amazon Transcribe

はじめに
サービス概要
- Speech-to-Textの概要
- Amazon Transcribeの概要
共通する機能
精度について
サービス利用料金について
最後に

サービス概要

Speech-to-Textの概要

cloud.google.com

Amazon Transcribeの概要

https://cloudcompiled.com/wp-content/uploads/2020/07/WER-1.jpg<span id="__caret">_</span> <section class="elementor-section elementor-top-section elementor-element elementor-element-9d9786e elementor-section-boxed elementor-section-height-default elementor-section-height-default" data-id="9d9786e" data-element_type="section" data-mce-fragment="1"> <div class="elementor-container elementor-column-gap-default" data-mce-fragment="1"> <div class="elementor-row" data-mce-fragment="1"> <div class="elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-59e4b45" data-id="59e4b45" data-element_type="column" data-mce-fragment="1"> <div class="elementor-column-wrap elementor-element-populated" data-mce-fragment="1"> <div class="elementor-widget-wrap" data-mce-fragment="1"> <div class="elementor-element elementor-element-61383bb elementor-widget elementor-widget-image" data-id="61383bb" data-element_type="widget" data-widget_type="image.default" data-mce-fragment="1"> <div class="elementor-widget-container" data-mce-fragment="1"> <div class="elementor-image" data-mce-fragment="1"><a href="https://cloudcompiled.com/wp-content/uploads/2020/07/WER-1.jpg" data-elementor-open-lightbox="yes" data-elementor-lightbox-title="WER" data-mce-fragment="1"> <img alt="WER score comparison" data-srcset="https://cloudcompiled.com/wp-content/uploads/2020/07/WER-1-1024x628.jpg 1024w, https://cloudcompiled.com/wp-content/uploads/2020/07/WER-1-300x184.jpg 300w, https://cloudcompiled.com/wp-content/uploads/2020/07/WER-1-768x471.jpg 768w, https://cloudcompiled.com/wp-content/uploads/2020/07/WER-1-1536x942.jpg 1536w, https://cloudcompiled.com/wp-content/uploads/2020/07/WER-1.jpg 1546w" data-src="https://cloudcompiled.com/wp-content/uploads/2020/07/xWER-1-1024x628.jpg.pagespeed.ic.VqFG9Xbb0Z.webp" data-sizes="(max-width: 1024px) 100vw, 1024px" class="attachment-large size-large lazyloaded" src="https://cloudcompiled.com/wp-content/uploads/2020/07/xWER-1-1024x628.jpg.pagespeed.ic.VqFG9Xbb0Z.webp" data-pagespeed-url-hash="31059146" onload="pagespeed.CriticalImages.checkImageForCriticality(this);" sizes="(max-width: 1024px) 100vw, 1024px" srcset="https://cloudcompiled.com/wp-content/uploads/2020/07/WER-1-1024x628.jpg 1024w, https://cloudcompiled.com/wp-content/uploads/2020/07/WER-1-300x184.jpg 300w, https://cloudcompiled.com/wp-content/uploads/2020/07/WER-1-768x471.jpg 768w, https://cloudcompiled.com/wp-content/uploads/2020/07/WER-1-1536x942.jpg 1536w, https://cloudcompiled.com/wp-content/uploads/2020/07/WER-1.jpg 1546w" width="1024" height="628" data-mce-fragment="1" /><noscript data-mce-fragment="1"><img width="1024" height="628" src="https://cloudcompiled.com/wp-content/uploads/2020/07/xWER-1-1024x628.jpg.pagespeed.ic.VqFG9Xbb0Z.webp" class="attachment-large size-large" alt="WER score comparison" srcset="https://cloudcompiled.com/wp-content/uploads/2020/07/xWER-1-1024x628.jpg.pagespeed.ic.VqFG9Xbb0Z.webp 1024w, https://cloudcompiled.com/wp-content/uploads/2020/07/xWER-1-300x184.jpg.pagespeed.ic.WnTrjFkTyK.webp 300w, https://cloudcompiled.com/wp-content/uploads/2020/07/xWER-1-768x471.jpg.pagespeed.ic.IxUCV_woI1.webp 768w, https://cloudcompiled.com/wp-content/uploads/2020/07/xWER-1-1536x942.jpg.pagespeed.ic.bcfu4kG4g3.webp 1536w, https://cloudcompiled.com/wp-content/uploads/2020/07/xWER-1.jpg.pagespeed.ic.uJprv6UDo9.webp 1546w" sizes="(max-width: 1024px) 100vw, 1024px" data-pagespeed-url-hash="299593812"/></noscript></a></div> </div> </div> </div> </div> </div> </div> </div> </section> aws.amazon.com

共通する機能

https://aws.amazon.com/jp/transcribe/features/
https://cloud.google.com/speech-to-text/?hl=ja

システムの要件から、使用しそうな機能をまとめてみました。

多言語に対応
ストリーミング音声認識
リアルタイムと保存ファイルの文字起こしに対応しています
マルチチャネル認識
複数の話者を認識して注釈します
句読点の挿入
文書に句読点を予測して挿入します（Speech-to-Textではベータ機能）
数の正規化
価格や年月日の形式を揃えて記述します
カスタム語彙
基本語彙に新しい単語を追加して専門用語や固有名詞のより正確な文字起こしができます
語彙フィルタリング
文書から削除する単語のリストを指定できます

英文スピーチの文字起こしには両者十分な機能を備えているかと思います。

精度について

以下の検証サイトを読んでいくと多くの差異があることがわかりましたが、今回は対象のシステムにかかわる文字起こし（英語）精度の差を取り上げます。

参照サイト

cloudcompiled.com

autome.me

単語誤り率(WER)

単語誤り率（WER）は、自動音声認識モデルによって生成された文書の精度を評価するために最も一般的に使用される測定基準であり、次のように計算されます。
WER =（置換+挿入+削除）/話された単語の数
WER値が低いほど、精度が高いことを示します。
以下が検証サイトでの各WERです（3種の文書の平均WER）

f:id:mshirakawakun:20210619003821j:plain — 各WER率

Speech-to-Textの平均WER 4.7%
Amazon Transcribeの平均WER 4.63%

WERはどちらも同じくらいですね。

類似率

オリジナルの文書と音声認識後に出力された文書の類似率は以下のようになっています。
（3種の文書の平均類似率）

類似率は高いほど精度が高いことを示します。

f:id:mshirakawakun:20210619003944j:plain — 各類似率

Speech-to-Textの平均WER 95.87%
Amazon Transcribeの平均WER 94%

こちらも両者ほぼ変わらずですね。

結論

数値上の精度はほぼ変わらないです。

しかし特に各サービス間で句読点を入れる場所が違ってきます。

この違いは単語誤りの結果や句読点の場所を予測するアルゴリズムの違いによるので、2サービス間でまったく同じ結果は期待できないと思います。

またSpeech-to-Textでは句読点の挿入がベータ機能となっているなど違いはあります。

サービス利用料金について

Speech-to-Textの料金

cloud.google.com

月で最初の60分までの音声は無料、その後15秒ごとに課金されるようです。
話者が一人の音声データを使用する分には$0.006/15 秒のレートになります。
動画や通話データを使用すると、$0.009/15 秒に高くなり、またGoogleへの音声データ提供に同意すると通常より少しだけ安くなります。

Amazon Transcribeの料金

aws.amazon.com

月で最初の60分までの音声は無料(12か月間限定)、60分以降は1秒ごとに課金されるようです。
また、1リクエストの最小料金が15秒分となるため、15秒に満たない音声データも15秒分として請求されます。
また料金体系としては従量課金制ですが、沢山使用すると安くなっていきます。
例えば最初の 250,000 分の使用には「T1」階層の料金が適用され1秒あたり0.00040USDですが、次の 750,000 分は「T2」階層の料金が適用され1秒あたり0.00025USDとなります。
Speech-to-TextとAmazon Transcribeは「T1」の料金が同じですね。

結論

両者料金面では同じ価格帯ですが、月で250,000 分以上の音声データを使用する場合はAmazon TranscribeのT2以降の割引料金がお得ではあります。
逆に言えば4167時間もの大量音声データを処理しないのであれば価格は気にしないでいいです。

最後に

両サービスの触りを調べてみましたが、Speech-to-Textではニューラルネットワークを、Amazon TranscribeでもなんらかのAIを使用して文字起こしを行っていることがわかりましたが、技術は公表されておらず同じ技術を使用しているかはわかりませんでした。

精度・機能においては両者ともほぼ同じ水準で備えていることがわかりましたが、検証サイトの文字起こしの結果でも一字一句同じ結果にはなりません。（以下参照）

f:id:mshirakawakun:20210619005505j:plain — 原文とSpeech-to-Textの文字起こし結果

f:id:mshirakawakun:20210619005549j:plain — 原文とAmazon Transcribeの文字起こし結果

人工知能や機械学習などの技術では、使用するアルゴリズムはもちろん学習に使用するデータで翻訳の性能が左右されるのでどうしても同じ結果は出ないようです。

料金面では大量に処理を行うシステムではAmazon Transcribeに分がありますが、そうでなければ同じ水準です。