Amazon Web Servicesの年次イベント「AWS re:Invent 2018」では、ファイルシステム、データベース、セキュリティ、機械学習など多岐にわたるサービスが発表されたが、その中から「Amazon Textract」を紹介しておきたい。

OCRを越えたテキスト抽出サービス

Amazon Textractはスキャン文書からテキストおよびデータを自動的に抽出するサービスだ。基本機能はOCR (Optical Character Recognition)と同等だが、コンテキストを加味してデータを抽出し整理する点がOCRとは大きく異なる。OCRはただ文字データを抽出するだけだが、Amazon Textractではどの部分の文字列がどの意味を持っているかを加味して整理してくれるのだ。

  • Amazon Textract - 資料: Amazon Web Services提供

    Amazon Textract

例えば、現在は、印刷された文書をオペレーターが手動で電子データとして入力している。これは、OCRで読み取るだけではどの部分がどの情報なのかを加味して処理するのが難しいためだ。そこで、オペレーターが文書を読んで内容を読み取り、それで電子データとして入力を行っている。

Amazon Textractはこうした人間が行っている処理を自動化するものだ。すでに学習されたモデルが用意されており、このモデルを使ってスキャン文書からテキストを抽出し、自動的に内容を整理してデータベースにストアしてくれるサービスになっている。

事前学習では請求書、領収書、契約書、税務書類、受注書、登録書、利益申請、保険金請求、保険証書など、さまざまな業界にわたる数千万もの文書が学習済みだとされている。しかし、AWS re:Invent 2018で取り上げられていたのは英語の文書であり、このサービスが日本語に適応できるのかはわからない。

現時点では、日本で使われている文書が学習されているかどうかもわからないが、すでに日本の業界の文書が学習済みであれば、日本で行われているオペレータによる手動作業の多くを自動化することができ、これまでよりも多くの文書をより短い時間で処理できるようになるだろう。

機械学習の知識がなくても利用可能

今回の基調講演では、機械学習関連の新サービスの発表に多くの時間が割かれていたが、それと同じくらい「機械学習の知識がなくても利用できる」というフレーズが使われていた。機械学習機能を使ったサービスでありながら、そのサービスを利用するための機械学習の知識は一切不要というわけだ。Amazon Textractもそうしたサービスの1つとされている。

機械学習を活用したいと考えているベンダーは機械学習を行うためのAPIやサービスの利用を求めるし、今回の基調講演ではそうしたサービスの発表も多かった。しかし、それ以上に目を引いたのは「機械学習の知識がなくても利用できる」というフレーズだ。内部では機械学習技術が使われているということをアピールしつつ、利用するにはそういったことは気にする必要がない、そうしたサービスの発表が多かった。