Scrapyのインストールログ - ando_ando

今日はある方と一緒にScrapyを触ってみました。
下記のブログがある方です。
Scrapyをいじってみた

将棋ウォーズアカウントを流出してしまいました。どちらが勝つか楽しみですw

「rubyによるクローラー開発技法」って本を会社で買ったんですが、どうせならPythonでやろうと
思ってScrapyをインストールしてみました。

作者: るびきち,佐々木拓郎
出版社/メーカー: SBクリエイティブ
発売日: 2014/08/25
メディア: 大型本
この商品を含むブログ (2件) を見る

インストール

pip install scrapy

tutorial

Scrapy Tutorial — Scrapy 0.24.4 documentation

プロジェクト作成

scrapy startproject tutorial

構成ファイル

tutorial/
    scrapy.cfg
    tutorial/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py

Itemの定義

vim items.pyの編集

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class DmozItem(scrapy.Item):
    jika = scrapy.Field()

クロール内容

dmoz_spider.pyの編集

import scrapy
from tutorial.items import DmozItem

class DmozSpider(scrapy.Spider):
    name = "stocks"
    allowed_domains = ["stocks.finance.yahoo.co.jp"]
    start_urls = [
        "http://stocks.finance.yahoo.co.jp/stocks/detail/?code=4507.T",
    ]

    def parse(self, response):
        #for sel in response.xpath('//ul/li'):
        item = DmozItem()
        item['jika'] = response.xpath('//*[@id="main"]/div[7]/div[2]/div[2]/div[1]/dl/dd/strong/text()').extract()
        return item

コマンドでクローラーを実行して、jsonで吐き出し

scrapy crawl stocks -o items.json
cat items.json 
[{"jika": ["1,001,440"]}]

塩野義製薬の時価総額を抜くことに成功しました。

ある会社のサービスが気になってるんだけど、料金が結構高額でビックリした。
自分で毎日少しずつ作ろうかな思っている。

chrome xpathの取得は初めて知った。ありがとうございます。