ГлавнаяБлогУдобный html парсер, и чуть курла

Удобный html парсер, и чуть курла

Рамиль Юналиев
Рамиль Юналиев
E-Commerce Lead
16 ноября 2009 г.
1 мин чтения

Когда нужно получить html страницу и вытащить оттуда определенные данные, удобным решением оказывается библиотека simple_html_dom.

Синтаксис — почти как jQuery. Выборка по имени тега и классу элемента DOM:

foreach ($html->find('tr.vcard') as $article)
{
    $item[] = array(
        "mail" => $article->find('a.email', 0)->plaintext,
        "name" => utf8win1251($article->find('td.fn', 0)->plaintext)
    );
}
echo "<pre>", print_r($item)."</pre>";

Библиотека позволяет обращаться к свойствам объекта для извлечения текста (plaintext) и легко работает в связке с cURL для скачивания страниц.

В комментариях читатели успешно использовали её для парсинга Yandex.Market и e-katalog.ru. Также предложена альтернатива — phpquery.