chat-blog

僕の独り言が誰か一人の役に立つことを祈って

*

pythonで正規表現を使って文字列を検索してマッチした全てを出力する

   


プログラミングしていて、
とあるファイルや外部サイトのHTMLだとかを部っこ抜きたい時はよくあると思います。
初めてpythonでスクレイピングをさせてみたのでメモメモ。

PR

使うモジュール

・urllib3

もしインストールされていない場合は、

pip install urllib3

でさくっとインストールするがよろし。
※僕はサーバをEC2にて運用しているのですが初めから入っていたようです。

なお今回はWebページにアクセスして文字列を検索して抜出すプログラムを書いています。

で、

こんな感じですね。

すごく適当な感じですが、
例えばツイッターのハッシュタグクラウドのページにアクセスして、
今話題のタグの部分を抜出したい場合は、

となるかと思います。

ただ、この場合だと、

<a href=”http://hashtagcloud.net/info/buddycom”>#buddycom</a><span class=”category”>[テレビ]</span>
<a href=”http://hashtagcloud.net/info/モーニング娘”>#モーニング娘</a><span class=”category”>[エンタメ]</span>
<a href=”http://hashtagcloud.net/info/ゲーム”>#ゲーム</a><span class=”category”>[ゲーム]</span>

といった感じで余計な文字だとかがあるので、
もう少しちゃんとした正規表現にするか、
抜出したあとに加工するかする必要はあります。


スポンサーリンク

スポンサードリンク

スポンサードリンク

 - 技術系 ,

\皆によく読まれてる人気記事/

スポンサーリンクと関連コンテンツ

  関連記事

【手順書】サーバでバックアップファイルを作るときのちょっとした工夫

毎度、僕です。 記事名の通りなのですが、 「あーこれ便利ー♪」 と感じたコマンド …

【AWS・EMR】Hadoopコマンド(lsなど)実行時、タイムスタンプがUTCな件

サーバのタイムゾーンがJSTで設定されていてもhadoop fs -lsを実行す …

ブログの更新を自動でツイッターで呟かせる際の改行方法

できるはずなので、色々と試してみた結果、 %0a のアスキーコードを埋め込むこと …

【5分で終わる】DropboxとLinuxとを同期させる方法

意外と簡単にできたのですが、 どんなに簡単なことでもメモメモ。

【GIT】既存のプロジェクトをコピーする方法

ansibleでテンプレートとなるplaybookファイル用意してて、 サービス …

Macで標準出力の結果をそのままクリップボードに保存する方法

Macには標準出力をクリップボードに保存してくれる pbcopyという とっても …

【Docker】イメージとコンテナの違いについて【初心者雑記】

現在Dockerについて興味があり使ってみたりしているが、 Dockerの概念を …

【Swift・X-Code】terminating with uncaught exception of type NSExceptionが出た時に確認するところ

ビルドは通ったのにエミュレーターが起動したときに起こるやつです。

linuxで大文字を小文字、小文字を大文字に変換させたいときのコマンド

tr を使う。   ・小文字を大文字する場合 tr ‘[a …

【ansible】”ERROR! ‘unicode’ object has no attribute ‘xx’とかいうメッセージがでる

  最近仕事でansibleに触れてて久しぶりに開発っぽいことしてて生 …

※コメントですが僕が確認してからとなるのでだいたい3日後の反映となります。

Message

メールアドレスが公開されることはありません。