ヒガサラblog

サラリーマン向けに、仕事を効率良く進めていくための方法についてご紹介しています。プログラミングから対人スキルまでを幅広く掲載中。

ヒガサラblog

【python】指定URLのHTMLを取得⇒テキストファイルに保存する方法!

f:id:yshgs_elec:20210211212547j:plain

この記事では、

【指定したurlのHTMLを、テキストファイルに出力する方法】

をご紹介します。

 

この方法で取得したテキストファイルを分析⇒加工することで記事タイトル一覧や各記事のURLを取得することが可能になります。

(分析⇒加工については別記事で掲載します。)

 

それでは早速やっていきます!

 ※この記事でのプログラミング言語はpythonを使っています。

 

スポンサーリンク

 

必要なライブラリ

この記事では以下のライブラリを使用します。

urllib.request 

 

インストールして使えるようにしておきましょう。

 

指定URLのHTMLをテキスト出力するpythonコード

早速ですが、指定URLのHTMLを取得するpythonコードをご紹介します。

※URLには私のブログのURLを入れています。


#ライブラリインポート
import urllib.request
import pandas as pd
pd.set_option("display.max_colwidth", None)
#テキストファイルを開く(出力用)
file = open('HTML.txt', 'w', encoding='utf-8')
#urlを指定する
url='https://www.higashisalary.com'
#HTMLを取得する
html=urllib.request.urlopen(url)
html=html.read().decode('utf-8')
#テキストファイルに書き込む
file.write(str(html))
file.close()

 

スポンサーリンク

 

サンプルコードの実行結果

最後に先ほど紹介したサンプルコードを実行してみましょう。

 

以下が出力されたテキストファイルの一部を抜粋したものです。

f:id:yshgs_elec:20210211211526j:plain


しっかりとタイトルやリンク先が表示されていますね。

 

このファイルを解析すればタイトル一覧やそのリンクURL一覧は簡単に取得することが可能です。

(そのへんのやり方はまた次回。)

 

スポンサーリンク

 

おわりに

というわけで今回はpythonを使って指定したURLのHTMLをテキストファイルに出力する方法をご紹介しました。

 

記事中コードをコピーしてURLを書き換えるだけですので非常に簡単ですね。

 

「pythonなんて使ったことないよ・・・。」

という方へ。

 

pythonは【人気のプログラミング言語ランキング1位】にもなった注目のプログラミング言語です。

かじっておいて損はないはずですのでこの機会にインストール&勉強してみてはいかがでしょうか。

以下の書籍では、インストール方法から基礎スキルの解説まで初心者向けに詳細解説しています。

私もこの本からすべてをスタートさせました。

 

このように私のブログでは様々なプログラミングスキルを紹介しています。

・もっと革新的なことをやりたい。

・プログラミングについてもっと詳しくなりたい。

こんな思いを持っている人は、ぜひ他の記事も見てみてくださいね。

 

この記事が役に立ったという方は、ぜひ応援よろしくお願いします。

 ↓ 応援ボタン

にほんブログ村 IT技術ブログへ
にほんブログ村

 

それではまた!