WindowsでPython環境を整える

 先日、ExcelVBAでブラウザ操作する方法を試してみましたが、そもそもWeb上のデータ収集ならpython使ったほうがいろいろできそう。この本を買ったのもあり、久しぶりにpython環境を整えることにしました。少し見ぬ間に、インストール環境、使用環境は大きく変わっており、びっくりしました。

PythonによるWebスクレイピング

PythonによるWebスクレイピング

まず、2~3年前と比べ、変わったこと、変わってないこと等の印象は以下の通り。

  • python2.x環境は今だ健在。windows環境なら、必要なライブラリが対応していれば、3.xで問題なさそう。
  • pipとか、easy_installとか、パッケージ管理ツールを使うのがスタンダード。
  • 仮想環境を作るツールが存在。これを使えばバージョン混在もいけそう。
  • Linux,Macに比べ、Windowsの環境が整ってない気がする。

まず、pythonのインストールは単体でなく、様々なライブラリが入ったパッケージを導入するほうが良さそう。使わないライブラリもあると思うが、管理ツールなども入っているので、後の設定が楽になる。一番良さそうなのは、「Anaconda」という数値計算環境を構築するためのパッケージ。

Anacondaの簡単な説明は、以下を参考に。
pychef.hateblo.jp

ダウンロードは、以下のページから行えます。
www.continuum.io

いくつかのタイプがありますが、python3.5の64ビットバージョンをダウンロードし、インストール開始。
f:id:Hanamaru:20160410224927j:plain

インストールフォルダは、Userフォルダ以下にすると、なぜかうまくいかず。C:直下に設定しました。
f:id:Hanamaru:20160410225334j:plain

インストールまでに、ちょっとしたトラブルがありましたが、何とか完了。こういうトラブルは、初心者には修正が難しいかも。
早速、コマンドプロンプトからpythonを起動。無事にpython3.5が起動しました。f:id:Hanamaru:20160410230026j:plain

まずは、管理ツールであるcondaのアップデート。

conda update conda

そして、anacondaもアップデート。

conda update anaconda

早速仮想環境を作ってみる。

conda create -n webs python

websは仮想環境につけた名前。Webスクレイピング用なので、こんな名前になりました。
ネットでは、以下のコマンドで仮想環境に入るはずだが、エラーが出てしまう。

source activete webs

どうも、上のコマンドはLinuxMac用で、Windouwsは以下のコードらしい。こういうことはちょくちょくあるので、よく調べる必要がある。

activate webs

これで仮想環境に入れた。
f:id:Hanamaru:20160410231022j:plain

condaのコマンドは、以下のページが参考になる。windows用のコマンドが書かれているのがありがたい。
qiita.com

仮想環境上で、htmlパーサの、「BeautifulSoup」を導入する。

conda install beautifulsoup4

ここまで準備し、PythonによるWebスクレイピングに書かれている、以下のサンプルがようやく動いた。

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("http://www.pythonscraping.com/pages/page1.html")
bsObj = BeautifulSoup(html.read)
print(bsObj.h1)

以下は、参考にしたサイト。
qiita.com
qiita.com

www.slideshare.net
conda で python の環境つくり · GitHub