Avui m’he trobat amb un problema curiós: intentava accedir a una pàgina web des de la funció fopen() del PHP per poder parsejar el codi però aquesta tasca en principi trivial era absolutament impossible amb la URL en concret que volia accedir (amb altres si que funcionava).
El curiós del tema és que des del navegador si que es podia accedir a la web en qüestió.
Quin era el problema? Que d’alguna manera és limitava la conexió HTTP des d’algo que no fos un navegador (que fa conexions GET). Cap problema, la solució era obrir una conexió mitjançant sockets i reproduïr manualment el protocol HTTP.
Quant ho estava fent, he trobat la classe HTTPRequest a la documentació oficial de PHP que precisament fà el que buscava i de forma molt elegant.
Reprodueixo el codi, per si es perd l’enllaç a l’original.
class HTTPRequest
{
var $_fp; // HTTP socket
var $_url; // full URL
var $_host; // HTTP host
var $_protocol; // protocol (HTTP/HTTPS)
var $_uri; // request URI
var $_port; // port
// scan url
function _scan_url()
{
$req = $this->_url;
$pos = strpos($req, ‘://’);
$this->_protocol = strtolower(substr($req, 0, $pos));
$req = substr($req, $pos+3);
$pos = strpos($req, ‘/’);
if($pos === false)
$pos = strlen($req);
$host = substr($req, 0, $pos);
if(strpos($host, ‘:’) !== false)
{
list($this->_host, $this->_port) = explode(‘:’, $host);
}
else
{
$this->_host = $host;
$this->_port = ($this->_protocol == ‘https’) ? 443 : 80;
}
$this->_uri = substr($req, $pos);
if($this->_uri == ”)
$this->_uri = ‘/’;
}
// constructor
function HTTPRequest($url)
{
$this->_url = $url;
$this->_scan_url();
}
// download URL to string
function DownloadToString()
{
$crlf = “\r\n”;
// generate request
$req = ‘GET ‘ . $this->_uri . ‘ HTTP/1.0′ . $crlf
. ‘Host: ‘ . $this->_host . $crlf
. $crlf;
// fetch
$this->_fp = fsockopen(($this->_protocol == ‘https’ ? ’ssl://’ : ”) . $this->_host, $this->_port);
fwrite($this->_fp, $req);
while(is_resource($this->_fp) && $this->_fp && !feof($this->_fp))
$response .= fread($this->_fp, 1024);
fclose($this->_fp);
// split header and body
$pos = strpos($response, $crlf . $crlf);
if($pos === false)
return($response);
$header = substr($response, 0, $pos);
$body = substr($response, $pos + 2 * strlen($crlf));
// parse headers
$headers = array();
$lines = explode($crlf, $header);
foreach($lines as $line)
if(($pos = strpos($line, ‘:’)) !== false)
$headers[strtolower(trim(substr($line, 0, $pos)))] = trim(substr($line, $pos+1));
// redirection?
if(isset($headers['location']))
{
$http = new HTTPRequest($headers['location']);
return($http->DownloadToString($http));
}
else
{
return($body);
}
}
}
0 comments ↓
There are no comments yet...Kick things off by filling out the form below.
Leave a Comment