• 締切済み

htmlの内容をテキストにする関数

言語は問わず、以下のような関数が存在するかどうか知りたいので教えてください。 html形式の文字列を「それをブラウザで表示したときにブラウザに表示されるテキスト」に変換する関数を探しています。 例えば "<b>あいう</b>えお<br>&lt;aaa&gt;♥" を入力すると、 出力が "あいうえお\n<aaa>(ハート)" を返すようなものです。 目的は、大量のhtml文章をテキストに変換することです。 出来れば(慣れているので)C、C++で方法があると嬉しいですが、自動化できるのであれば言語はなんでも構いません。

みんなの回答

  • bunthit
  • ベストアンサー率0% (0/1)
回答No.3

PHPにはstrip_tags()という便利関数がありましてな… &lt;と&gt;のデコードは同じくPHPであればhtml_entity_decode()が使えると思います。

参考URL:
http://php.net/manual/ja/function.strip-tags.php
すると、全ての回答が全文表示されます。
  • think49
  • ベストアンサー率59% (285/482)
回答No.2

HTMLからmarkdownへの変換ライブラリ。 http://pronama.jp/md/ http://pronama.azurewebsites.net/2014/05/16/html-to-markdown-libraries-and-tools/ ただし、CSSで複雑な装飾をしていないという前提条件があると思います。 float で display: block を流し込みしたり、display: table-cell; で table-layout を実現していたり、float: right; で挿入順を変更していたり、とCSS未適用の場合とレイアウトが変化している場合は期待通りに変換出来ないと思われます。 # Re: gisiriさん

すると、全ての回答が全文表示されます。
  • notnot
  • ベストアンサー率47% (4902/10363)
回答No.1

関数ではありませんが、「HTML テキスト化」で検索するといくつかツールがあるようです。

すると、全ての回答が全文表示されます。

関連するQ&A