2012年12月11日火曜日

HTMLファイルを処理するためにPerlと正規表現を使用 - パート1


私はワードプロセッサやパブリッシングパッケージによって生成されたHTMLファイルの束をクリーンアップする必要があったときに、多くのWebコンテンツ作成者と同様に、過去数年間、私は多くの機会がありました。当初、私は順番にそれぞれを開き、それぞれの更新の同じセットを作り、手動でファイルをクリーンアップするために使用されます。あなただけ修正するためにいくつかのファイルを持っているとき、これは正常に動作しますが、あなたがしなければ何百、何千ものを持っているときは、非常に迅速に、数週間または仕事の何ヶ月も見てすることができます。数年前、誰かがこの "クリーンアップ"プロセスを実行するためにPerlと正規表現を使用するというアイデアに私を置く。

なぜ私はあなたが言うのを聞くPerlや正規表現についての記事を書きます。まあ、それは良い点です。すべてのWebの後、Perlと正規表現のチュートリアルがいっぱいです。私はかかわらず、見つけたもの、私はHTMLファイルを処理する方法を見つけるためにしようとしていたときに、私はそれが困難な私の基準を満たしてチュートリアルを見つけることが見出された。私はちょうどそれらを見つけることができなかった、彼らは存在しないとは言わないよ。確かに、私は正規表現を知る必要があるため、すべてを説明するチュートリアルを見つけることができる、と私は、Perlスクリプト内で正規表現を使用する方法についてもどのようにPerlでプログラムについてのチュートリアルをたくさん見つけると、可能性があります。私は、1つまたは複数のHTMLやテキストフ​​ァイルを開く方法を説明したチュートリアルであったが、正規表現を使用してそれらのファイルへの更新を行う見つけ、ファイルを保存して閉じることができませんでした。

目標

HTMLに文書を変換するときの目標は、ソースドキュメント(たとえば、ワードプロセッサの文書)からHTMLへのシームレスな変換を達成するために、常にです。あなたが必要とする最後のものは、コンテンツ作成者が時間を費やして、または何日も、それが変換された後散らかったHTMLコードを固定するためのものです。

多くのアプリケーションは、HTMLに変換する文書のための優れたツールを提供し、うまく設計されたカスケードスタイルシート(CSS)との組み合わせで、多くの場合、完璧な結果を生むことができます。あるものの、通常は、ソース文書に正しく段落タグやスタイルを適用していない者によって引き起こされる少し厄介であり、HTMLコードの少しビットがあります。

なぜPerl?

Perlはそれはましょう、それに直面しているテキストフ​​ァイルを、処理に優れているため、このタスクのために使用するような良い言語である理由は、すべてのHTMLファイルがあります。 Perlはまた、検索するために使用し、変更/ファイル内のテキストまたはコードのビットを交換することができ、正規表現を使用するためのデファクトスタンダードです。

Perlは何ですか?

Perlの(実用的な抽出とレポート用の言語)は、それは他のプログラミング言語が行うことができます何かをするために使用できることを意味し、一般的な汎用プログラミング言語です。 、Perlは他の人にとても良い、非常に特定の物事が得意ではなく、あることを述べた。あなたがそれを行うことができますが、それがこれを行うには、Visual Basicなどの言語を使用する方がはるかに簡単であるように、通常のPerlのユーザーインターフェイスを開発しませんでした。どのPerlが本当に得意なのは、テキストを処理しています。これは、HTMLファイルを操作するための優れた選択肢となります。

正規表現とは何ですか?

正規表現は、特定の構文規則に従って、文字列のセットを記述するか、一致する文字列です。 JavaScriptとPHPを含む多くの言語は、それらを使用することができます - - 正規表現はPerlに固有のものではありませんが、Perlは他のどの言語よりも優れてそれらを処理します。

パート2では、我々の最初のサンプルPerlスクリプトを見てみましょう...

0 件のコメント:

コメントを投稿