• 締切済み

英文をPDFからWORDに変換したら・・・

困っています。 英文のPDFをWORに変換したら、1単語に半角スペースが1~数個入ってしまいます。A4にして30ページなので非常に困っています。 ちなみにPDFから変換する際の文字認識の設定は、 英語(アメリカ) Clear scan 600 です。どのたか解決方法をご存知ではないでしょうか。

みんなの回答

  • DreamyCat
  • ベストアンサー率56% (295/524)
回答No.3

完全(実用)とはほど遠いですが 文頭にカーソルを置いて 下記のコードを標準モジュールにおいて 実行してみてください。 1ページあたり500個の単語があるとして さらにそれが1~2文字に細分されていて2000個ほどあるとしたら 30ページで60000個、手動で1個1秒で削除しても24時間ほどかかるので 何分の1かで済むと思います。ただし、実行後に確認で数時間くらい必要かもしれません。 念のためそのファイルのコピーで実行してください。 2文字(スペース込みで3文字以内の場合にスペースを削除します。 sub del() Selection.Find.ClearFormatting Selection.Find.Replacement.ClearFormatting Do With Selection.Find .Text = " " .Replacement.Text = "" .Forward = True .Wrap = wdFindAsk .Format = False .MatchCase = False .MatchWholeWord = False .MatchByte = False .MatchAllWordForms = False .MatchSoundsLike = False .MatchWildcards = False .MatchFuzzy = True End With Selection.Find.Execute Selection.MoveRight Unit:=wdWord, Count:=1 ', Extend:=wdExtend If Selection.Words(1).Characters.Count <= 3 Then If Selection.Words(1) <> "a " Or Selection.Words(1) <> "in " Or Selection.Words(1) <> "of " _ Or Selection.Words(1) <> "or " Or Selection.Words(1) <> "my " Or Selection.Words(1) <> "at " _ Or Selection.Words(1) <> "by " Or Selection.Words(1) <> "us " Or Selection.Words(1) <> "to " Then Selection.MoveLeft Unit:=wdCharacter, Count:=1 Selection.Delete End if End If DoEvents: DoEvents Loop end sub

YUKAKUDO
質問者

お礼

お返事が遅くなり申し訳ありません。 記載していただいたものは、a, to, atなど頻出するものですね。これを認識するとその単語毎にスペースを識別できる、というものでしょうか。 標準モジュールという言葉を初めて聞いたので今度調べてみます。ありがとうございました。

  • nonamochi
  • ベストアンサー率62% (228/365)
回答No.2

おはようございます Clearscanで複数ページのPDFを変換すると無作為に多量のスペースが挿入されると言う事例を発見しました。この場合、1ページのPDFを同様にClearscanで変換すると問題は発生しなかったとの事です。 これから判断すると、問題のPDF文書を1ページ単位に分割してClearscanにかければ問題は発生しないのではと思われます。ただし、前処理と後処理が必要になります。 以上はあくまでもClearscanを使用する場合の対応ですが、他の方法としては別の変換ソフトを使用すると言う手もあります。 なお、この30ページの文書のみ変換が必要で、今後は同様な処理を行う事は無いと言うのでしたら、あれこれと試すより手作業で余分なスペースを削除するのが時間的には一番速いです。この場合はスペースを検索・削除する置換処理を行えば、マウスボタンをただ押すだけなので作業は楽です。

YUKAKUDO
質問者

お礼

お返事が遅くなり申し訳ありません。 一応、原文をコピペして単語列や文字化け対応に3時間くらいかかりました。 また同じ形式のPDFを処理する可能性が高いので、そうなった場合、置換でスペースを消去しようと思います。 あと、1ページ毎にスキャンしてみます。 ありがとうございます。

回答No.1

PDFをOCRでWORDに変換ではなく、PDFの文字列を選択してコピー&ペーストでWORDに貼り付けることはできないのですか?  PDFの文字列を選択できないとか、PDFの文字を画像で作ってるとかだったら、認識のほうはどうにもならないと思うので、WORD変換された文書を、いかに効率的に正しく直すかを考えるほうが早いと思いますね。

YUKAKUDO
質問者

お礼

お礼が遅くなりまして申し訳ありません。 おっしゃる通り普通にコピペしてみました。 $や!など文字が化けたり単語の順序が変わってしまったりしましたが、30ページ分の文字間のスペースを削除するよりは良かったです。ありがとうございました。

関連するQ&A