- ベストアンサー
アスキーアート削除のロジック
現在2ちゃんるに書き込まれた情報を取得するプログラムを作成しているのですが アスキーアートのみを削除する方法が分かりません。 時々、アスキーアートの削除機能をもったソフトを見かけますが どのような方法で実現しているのでしょうか?
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
「アスキーアートを削除する」というよりも「文章と思われるもの以外は削除する」という方針かな?と思います。 たとえば、文章なら日本語なら全角のひらがな、漢字が必ず一定比率以上含まれるでしょうし、英文なら、半角英文字の比率が圧倒的に高くなるはずでしょう。それ以外のものの出現率があまりにも高いようならこれはちょっと文章とは言えないんじゃない?と。 また、アスキーアートでは無意味な(文章としてはめったに出てこないような)記号の羅列が登場しやすいというのもありますよね。たとえば普通の文章なら")"の次に";"などがくることやセミコロンやピリオドなどの記号ばかりが連続することは稀でしょう。 これらの「文章にはなりそうもないパターン」を弾いていけば、かなりの確率でうまく削除できるのではないでしょうか?
その他の回答 (1)
- 神崎 渉瑠(@taloo)
- ベストアンサー率44% (1016/2280)
回答No.1
形態素解析して「その他・記号」しか出てこない行は削除とか?