• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:クラウドの事例について質問です。現在、クラウドの勉)

クラウドを活用したOCR処理事例|ワシントンポスト社がわずか9時間で1万7000ページのPDF化を実現

このQ&Aのポイント
  • ワシントンポスト社がAmazonのEC2を活用し、200台の仮想サーバーを使用して、1万7000ページのPDF化された資料のOCR処理をわずか9時間で実現。
  • サーバーの仮想化により、膨大な処理能力を活用することが可能となり、処理時間を大幅に短縮できる。
  • 仮想化により、複数のサーバーを同時に動作させることで、並列処理が可能となり、効率的なOCR処理が実現できる。

質問者が選んだベストアンサー

  • ベストアンサー
  • catpow
  • ベストアンサー率24% (620/2527)
回答No.1

>>「なぜサーバを仮想化することで、OCR処理が早くなるのでしょうか? PDF化が終わっているデータをOCR処理するのには、大きなCPUパワーを必要とするようです。 たぶん、実サーバを仮想サーバに置き換えるだけで、性能的に同等であるなら、OCR処理は早くならないと思います。 その記事をみると、OCR処理を多数のインスタンスにより処理したと書かれていますから、たとえばサーバ5台分の仮想化を行ったけど、そのOCR処理のためだけ、サーバ200台分のパワーを追加で時間単位で借りたってことではないかと思えます。 クラウド環境は、必要に応じて追加のリソースが簡単に調達でき、不要になれば、返却できます。 自前の実サーバであれば、追加サーバの導入に数ヶ月かかるってこともありますから、クラウドのメリットは大きいですよね。 ですので、早くなったのは、「仮想化」が理由ではないってことです。 が、仮想化をやってないと、こういう柔軟な運用はできないってことで、「仮想化によって早くなった」という言い方も可能かもしれませんね。

その他の回答 (1)

  • hamazo2004
  • ベストアンサー率27% (292/1068)
回答No.2

クラウドということと仮想化を別々に簡単に説明をしたいのですが、クラウドは遠隔操作することで、仮想化は、簡単に言うと1台のPCで約2万ページのPDFをOCRすることと、200台のPCでそれぞれ約100ページずつOCRすることではスピードが違います。1台の超大型高性能PC(サーバー)を分割化(仮想化)するアプリがあります。すでに回答にもあるとおりスキャナー自体は短時間で読み取ることの出来るものがありますが、それを正確にOCR(テキスト化)することは、相当の機能を必要とします。 何億円もする超大型高性能PC(サーバー)を普通買うことが出来ませんが、アマゾンなどでそれを時間貸しするサービスを始めました。

関連するQ&A