古い文献走査におけるPDFファイルのテキスト情報
最近では、100年~数十年前の古い公的文書や論文が大量にスキャンされてPDF化されています。
それらをPDF化する前提として、それらの電子化テキストは存在しません(現在では、論文は電子化テキストで提出もおこなわれていますので、テキスト情報の付加に際して電子化テキストを別途利用できると思います)。
疑問に思ったのは、そういった古い文書のPDFファイルにおいて、テキスト部分の情報がテキスト情報としてファイルに含まれていることです。つまり、テキストの部分を選択したり、その上でテキストの部分をクリップボードにコピーしたりすることができるということです。
最初ふと思ったのは、OCRによってテキスト情報を付加したのかなということでした。
しかし、スキャンの元となる文献には活字印刷が汚い部分が極めて多く存在します。また、現在までに膨大な文書を調べた限り、PDFでの表示とテキスト情報とが一致しない部分は一つも存在していません。英文の文書にはいくらラテンアルファベットやいくつかの記号しかないとはいえ、OCRとわずかばかりの手作業による修正で、ここまで完璧にできるとは思えません。
こういうきわめて大量の古い文書をPDFファイルとして出してくるまでの一連の作業過程はどうなっているのでしょうか。
例については、数十年前の古い学術論文を任意で見ていただけたらと思います。
お礼
ありがとう御座います。なかなか難しそうですね。 スクラップブックを作って インデックスを作って検索でそのページに飛べると良いのですが、テキストにすると写真が消えてしまいます。再編集大変そう。勉強してみます。