web-dev-qa-db-ja.com

単純なhtml dom file_get_htmlが機能しない-回避策はありますか?

<?php
// Report all PHP errors (see changelog)
error_reporting(E_ALL);

include('inc/simple_html_dom.php');

    //base url
    $base = 'https://play.google.com/store/apps';

    //home page HTML
    $html_base = file_get_html( $base );

    //get all category links
    foreach($html_base->find('a') as $element) {
        echo "<pre>";
        print_r( $element->href );
        echo "</pre>";
    }

    $html_base->clear(); 
    unset($html_base);

?>

上記のコードがあり、Playストアページの特定の要素を取得しようとしていますが、何も返されません。特定のPHP=関数がサーバーで無効にされてそれを停止する可能性がありますか?

上記のコードは他のサイトで完全に動作します。

回避策はありますか?

9
Altin

私が言ったように、あなたの例は私にとってうまくいきます...しかし、代わりにcurlを使ってこの方法を試してください:

//base url
$base = 'https://play.google.com/store/apps';

$curl = curl_init();
curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, FALSE);
curl_setopt($curl, CURLOPT_HEADER, false);
curl_setopt($curl, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($curl, CURLOPT_URL, $base);
curl_setopt($curl, CURLOPT_REFERER, $base);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, TRUE);
$str = curl_exec($curl);
curl_close($curl);

// Create a DOM object
$html_base = new simple_html_dom();
// Load HTML from a string
$html_base->load($str);

//get all category links
foreach($html_base->find('a') as $element) {
    echo "<pre>";
    print_r( $element->href );
    echo "</pre>";
}

$html_base->clear(); 
unset($html_base);

期待どおりにすべてのリンクを取得します。

enter image description here

そして、あなたがphp_opensslおよびphp_curlインストール済み...

32
Enissay

php.iniからセミコロンを削除し、Apacheサーバーを再起動して、phpモジュールの設定を有効にします

; Windows Extensions
...
;extension=php_openssl.dll
...
3
Chitsai Yeh

HTTPまたはFTP経由でファイルにアクセスできるようにするには、「php.ini」で「allow_url_fopen」をTRUEに設定する必要があります。
一部のホスティングベンダーは、セキュリティ問題のためにPHPの「allow_url_fopen」フラグを無効にします。

2
shahil
$post = curl_init(); 
curl_setopt($post, CURLOPT_SSL_VERIFYPEER, FALSE);
curl_setopt($post, CURLOPT_AUTOREFERER, TRUE);
curl_setopt($post, CURLOPT_HEADER, 0);
curl_setopt($post,CURLOPT_RETURNTRANSFER, true);
curl_setopt($post,CURLOPT_URL,$website);
curl_setopt($post,CURLOPT_POST,1);
curl_setopt($post,CURLOPT_POSTFIELDS,"regno=$Number");
curl_setopt($post, CURLOPT_FOLLOWLOCATION, True);
curl_getinfo($post, CURLINFO_HTTP_CODE);
$curlresponse = curl_exec($post);
curl_close($post);  
$dom = new DOMDocument();
$dom->loadHTML($curlresponse);

DOMDocument :: loadHTML()[domdocument.loadhtml]:htmlParseStartTag:正しく配置されていないTHIS IS URL: http://www.annauniv.edu/cgi-bin/result/cgrade。 pl?regno = 11210104001

1
mr.buzz