chat-blog

僕の独り言が誰か一人の役に立つことを祈って

*

pythonで正規表現を使って文字列を検索してマッチした全てを出力する

   

プログラミングしていて、
とあるファイルや外部サイトのHTMLだとかを部っこ抜きたい時はよくあると思います。
初めてpythonでスクレイピングをさせてみたのでメモメモ。

PR

使うモジュール

・urllib3

もしインストールされていない場合は、

pip install urllib3

でさくっとインストールするがよろし。
※僕はサーバをEC2にて運用しているのですが初めから入っていたようです。

なお今回はWebページにアクセスして文字列を検索して抜出すプログラムを書いています。

で、

こんな感じですね。

すごく適当な感じですが、
例えばツイッターのハッシュタグクラウドのページにアクセスして、
今話題のタグの部分を抜出したい場合は、

となるかと思います。

ただ、この場合だと、

<a href=”http://hashtagcloud.net/info/buddycom”>#buddycom</a><span class=”category”>[テレビ]</span>
<a href=”http://hashtagcloud.net/info/モーニング娘”>#モーニング娘</a><span class=”category”>[エンタメ]</span>
<a href=”http://hashtagcloud.net/info/ゲーム”>#ゲーム</a><span class=”category”>[ゲーム]</span>

といった感じで余計な文字だとかがあるので、
もう少しちゃんとした正規表現にするか、
抜出したあとに加工するかする必要はあります。

スポンサーリンク

スポンサードリンク

スポンサードリンク

最後まで見ていただきありがとうございます。
今後とも頑張って更新していきますのでもしよろしければ
下記お一つでもシェアしていただけると幸甚です。
Facebookでシェア Twitterでシェア はてなブックマーク LINEで送る

 - 技術系 ,

\皆によく読まれてる人気記事/

スポンサーリンクと関連コンテンツ

  関連記事

viで行頭、行末でカーソル移動時に前の行や次の行に移動してしまってイラつく

vagrantで野良BOXをどっかから持ってきたりするとよくあることなので残して …

【Ansible】list型で定義した変数を改行区切りでjoinし出力する

題名でやりたい内容伝わるかしら・・・w

Jenkinsのジョブを別のJenkinsサーバにコピーする方法

何かしらで、 「とある環境のjenkinsジョブを別サーバのjenkinsに持っ …

MacのiTermでcoffeescriptを書くときに色をつけて快適にコーディングがしたい

最近coffeescriptとやらに触れたりしているのですが、 itermで書い …

【Python】3分でMacをmecabが使える環境に整える

形態素解析とかして色々したくなった(必要になった)ので。

【GIT】ローカルでbranchを作成しそれをリモートにpushするコマンド

結構やるわりには毎回忘れるのでメモです。

xcode6をvimライクにした。

まいど。つい先程からxcodeのswiftの勉強をし始めましたチャットです。 そ …

【解説付き】vimrcのオススメな設定内容を晒すので参考に【小技も】

貼り付けるだけで便利になるviエディタの自分の設定について晒しておきます。 (自 …

またもこのブログ(word press)で「bad gateway 502エラー」がでました。

今日は19:30頃には会社をでて(僕の会社は10時出社の19時定時)、 早めに家 …

RubygemsをLinuxサーバにソースから3分でインストールする方法

railsアプリが動く環境を構築する上でrubyとrubygemsをインストール …

※コメントですが僕が確認してからとなるのでだいたい3日後の反映となります。

Message

メールアドレスが公開されることはありません。