chat-blog

僕の独り言が誰か一人の役に立つことを祈って

*

pythonで正規表現を使って文字列を検索してマッチした全てを出力する

   

プログラミングしていて、
とあるファイルや外部サイトのHTMLだとかを部っこ抜きたい時はよくあると思います。
初めてpythonでスクレイピングをさせてみたのでメモメモ。

PR

使うモジュール

・urllib3

もしインストールされていない場合は、

pip install urllib3

でさくっとインストールするがよろし。
※僕はサーバをEC2にて運用しているのですが初めから入っていたようです。

なお今回はWebページにアクセスして文字列を検索して抜出すプログラムを書いています。

で、

こんな感じですね。

すごく適当な感じですが、
例えばツイッターのハッシュタグクラウドのページにアクセスして、
今話題のタグの部分を抜出したい場合は、

となるかと思います。

ただ、この場合だと、

<a href=”http://hashtagcloud.net/info/buddycom”>#buddycom</a><span class=”category”>[テレビ]</span>
<a href=”http://hashtagcloud.net/info/モーニング娘”>#モーニング娘</a><span class=”category”>[エンタメ]</span>
<a href=”http://hashtagcloud.net/info/ゲーム”>#ゲーム</a><span class=”category”>[ゲーム]</span>

といった感じで余計な文字だとかがあるので、
もう少しちゃんとした正規表現にするか、
抜出したあとに加工するかする必要はあります。

スポンサーリンク

スポンサードリンク

スポンサードリンク

最後まで見ていただきありがとうございます。
今後とも頑張って更新していきますのでもしよろしければ
下記お一つでもシェアしていただけると幸甚です。
Facebookでシェア Twitterでシェア はてなブックマーク LINEで送る

 - 技術系 ,

  関連記事

【Python】3分でMacをmecabが使える環境に整える

形態素解析とかして色々したくなった(必要になった)ので。

【Python】インストールしたパッケージを完全にアンインストールする方法

仕事でansibleを使ったりしてて検証中にバージョンを上げたり下げたりって結構 …

【python】unlessがないのでnotを使う

僕はperlを書いてて「偽のときだけの処理」を書くときよくunlessを使うので …

ブログの更新を自動でツイッターで呟かせる際の改行方法

できるはずなので、色々と試してみた結果、 %0a のアスキーコードを埋め込むこと …

Route53とムームードメインを使って独自ドメイン取得したよ!

毎度、チャットです。 ブログが出来上がって「さあこれから更新だ」ってなって、 「 …

【エンジニア必見】vimでの入力補完の仕方

viでの入力補完について、あまり使われていないようなので、 一応記事に載せておき …

【Linux】サーバ間をノンパスでSSH接続したい時にやる鍵交換の方法

頻繁に接続しに行くサーバで毎回パスワード打つのは面倒くさいので鍵交換することでパ …

【GIT】既存のプロジェクトをコピーする方法

ansibleでテンプレートとなるplaybookファイル用意してて、 サービス …

【Ansible】list型で定義した変数を改行区切りでjoinし出力する

題名でやりたい内容伝わるかしら・・・w

viで行頭、行末でカーソル移動時に前の行や次の行に移動してしまってイラつく

vagrantで野良BOXをどっかから持ってきたりするとよくあることなので残して …

※コメントですが僕が確認してからとなるのでだいたい3日後の反映となります。

Message

メールアドレスが公開されることはありません。