web-dev-qa-db-ja.com

python)でグーグルニュースをスクレイピングするウェブ

私はさまざまな報道機関向けにウェブスクレイパーを作成しています。NytimesとGuardianは、独自のAPIを持っているので簡単でした。

さて、この新聞GulfTimes.comから結果を取得したいと思います。彼らは彼らのウェブサイトで高度な検索を提供していないので、私はグーグルニュースに頼った。ただし、GoogleニュースのApiは非推奨になりました。私が欲しいのは、keyword = "Egypt"とbegin_date = "10/02/2011"とend_date = "10/05/2011"のような高度な検索から結果の数を取得することです。

これは、ソースを「Gulf Times」として入力し、対応するクエリと日付を入力し、結果の数を手動でカウントするだけで、GoogleニュースUIで実行できますが、Pythonを使用してこれを実行しようとすると、理解できる403エラーが発生します。 。

私がこれをどのように行うかについてのアイデアはありますか?または、これを可能にするGoogleニュース以外の別のサービスはありますか?一度に500件近くのリクエストを発行することを念頭に置いてください。

import json
import urllib2
import cookielib
import re
from bs4 import BeautifulSoup


def run():
   Query = "Egypt"
   Month = "3"
   FromDay = "2"
   ToDay = "4"
   Year = "13"
   url='https://www.google.com/search?pz=1&cf=all&ned=us&hl=en&tbm=nws&gl=us&as_q='+Query+'&as_occt=any&as_drrb=b&as_mindate='+Month+'%2F'+FromDay+'%2F'+Year+'&as_maxdate='+Month+'%2F'+ToDay+'%2F'+Year+'&tbs=cdr%3A1%2Ccd_min%3A3%2F1%2F13%2Ccd_max%3A3%2F2%2F13&as_nsrc=Gulf%20Times&authuser=0'
   cj = cookielib.CookieJar()
   opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
   request = urllib2.Request(url)   
   response = opener.open(request)
   htmlFile = BeautifulSoup(response)
   print htmlFile


run()
13
Jiyda Moussa

あなたは素晴らしいを使うことができます requests ライブラリ:

import requests

URL = 'https://www.google.com/search?pz=1&cf=all&ned=us&hl=en&tbm=nws&gl=us&as_q={query}&as_occt=any&as_drrb=b&as_mindate={month}%2F%{from_day}%2F{year}&as_maxdate={month}%2F{to_day}%2F{year}&tbs=cdr%3A1%2Ccd_min%3A3%2F1%2F13%2Ccd_max%3A3%2F2%2F13&as_nsrc=Gulf%20Times&authuser=0'


def run(**params):
    response = requests.get(URL.format(**params))
    print response.content, response.status_code


run(query="Egypt", month=3, from_day=2, to_day=2, year=13)

そして、status_code = 200を取得します。

そして、ところで、 scrapy プロジェクトを見てください。このツールほどウェブスクレイピングを簡単にするものはありません。

15
alecxe

こんにちは、簡単な方法でこのようにスクラップできます

from bs4 import BeautifulSoup
import requests

url="https://news.google.co.in/"
code=requests.get(url)
soup=BeautifulSoup(code.text,'html5lib')
for title in soup.find_all('span',class_="titletext"):
print title.text
1
pupu

開示:私はSerpApiで働いています。


google-search-results Googleニュースからデータを抽出するパッケージ。 Repl.itでデモを確認してください

from serpapi.google_search_results import GoogleSearchResults

month = 4
from_day = 2
to_day = 3
year = 2020

params = {
    "engine": "google",
    "q": "Trump",
    "google_domain": "google.com",
    "tbm": "nws",
    "tbs": f"cdr:1,cd_min:{month}/{from_day}/{year},cd_max:{month}/{to_day}/{year}",
}

client = GoogleSearchResults(params)
data = client.get_dict()

print("News results")

for result in data['news_results']:
    print(f"""
Title: {result['title']}
Snippet: {result['snippet']}
Date: {result['date']}
""")

JSON応答の一部

{
  "news_results": [
    {
      "position": 1,
      "title": "Trump Promotes Oil Deal That May Not Exist",
      "link": "https://www.nytimes.com/2020/04/02/us/politics/trump-russia-saudi-arabia-oil.html",
      "source": "The New York Times",
      "date": "15 hours ago",
      "snippet": "WASHINGTON — When oil prices crashed in early March after a dispute between \nRussia and Saudi Arabia, President Trump put a positive spin on the news.",
      "thumbnail": ""
    },
    {
      "position": 2,
      "title": "Trump’s Oil Summit",
      "link": "https://www.wsj.com/articles/trumps-oil-summit-11585870063",
      "source": "Wall Street Journal",
      "date": "Opinion · 16 hours ago",
      "snippet": "Trump's Oil Summit. Tariffs and quotas won't solve a price shock caused by \na pandemic and a Saudi Arabia-Russia feud.",
      "thumbnail": ""
    }
  ]
}

出力

News results

Title: Trump Promotes Oil Deal That May Not Exist
Snippet: WASHINGTON — When oil prices crashed in early March after a dispute between 
Russia and Saudi Arabia, President Trump put a positive spin on the news.
Date: 15 hours ago


Title: Trump’s Oil Summit
Snippet: Trump's Oil Summit. Tariffs and quotas won't solve a price shock caused by 
a pandemic and a Saudi Arabia-Russia feud.
Date: Opinion · 16 hours ago


Title: OPEC and allies reportedly set for video meeting as analysts pour 
skepticism on Trump's intervention
Snippet: “Donald Trump's Tweet … It's nonsense, really,” Patrick Armstrong, chief 
investment officer at Plurimi Investment Managers, told CNBC's “Squawk Box 
Europe” on ...
Date: 5 hours ago


Title: Trump again tests negative for coronavirus
Snippet: President Donald Trump on Thursday again tested negative for the 
coronavirus after being tested by the White House physician, according to 
two White House ...
Date: 17 hours ago


Title: Trump passes the buck as deadly ventilator shortage looms
Snippet: (CNN) President Donald Trump is pinning the blame on states for a shortage 
of ventilators that governors warn could effectively condemn coronavirus 
patients to ...
Date: 10 hours ago

詳細については、 SerpApiドキュメント または ライブプレイグラウンド を確認してください。

SerpApi Google News

0
Ilya Zub