技術系

pythonで正規表現を使って文字列を検索してマッチした全てを出力する

投稿日:


プログラミングしていて、
とあるファイルや外部サイトのHTMLだとかを部っこ抜きたい時はよくあると思います。
初めてpythonでスクレイピングをさせてみたのでメモメモ。

スポンサーリンク

使うモジュール

・urllib3

もしインストールされていない場合は、

pip install urllib3

でさくっとインストールするがよろし。
※僕はサーバをEC2にて運用しているのですが初めから入っていたようです。

なお今回はWebページにアクセスして文字列を検索して抜出すプログラムを書いています。

で、

こんな感じですね。

すごく適当な感じですが、
例えばツイッターのハッシュタグクラウドのページにアクセスして、
今話題のタグの部分を抜出したい場合は、

となるかと思います。

ただ、この場合だと、

<a href="http://hashtagcloud.net/info/buddycom">#buddycom</a><span class="category">[テレビ]</span>
<a href="http://hashtagcloud.net/info/モーニング娘">#モーニング娘</a><span class="category">[エンタメ]</span>
<a href="http://hashtagcloud.net/info/ゲーム">#ゲーム</a><span class="category">[ゲーム]</span>

といった感じで余計な文字だとかがあるので、
もう少しちゃんとした正規表現にするか、
抜出したあとに加工するかする必要はあります。


スポンサードリンク

スポンサードリンク

-技術系
-,

Copyright© chat-blog , 2017 AllRights Reserved.