Удобный html парсер, и чуть курла

Когда нужно получить html страницу и вытащить оттуда определенные данные, удобным решением оказывается библиотека simple_html_dom.

Синтаксис — почти как jQuery. Выборка по имени тега и классу элемента DOM:

foreach ($html->find('tr.vcard') as $article)
{
    $item[] = array(
        "mail" => $article->find('a.email', 0)->plaintext,
        "name" => utf8win1251($article->find('td.fn', 0)->plaintext)
    );
}
echo "<pre>", print_r($item)."</pre>";

Библиотека позволяет обращаться к свойствам объекта для извлечения текста (plaintext) и легко работает в связке с cURL для скачивания страниц.

В комментариях читатели успешно использовали её для парсинга Yandex.Market и e-katalog.ru. Также предложена альтернатива — phpquery.

Удобный html парсер, и чуть курла

Похожие статьи

Разделы инфоблока в 1С-Битрикс: D7 и без ручного разбора массива

Отключение событий Add/Update/Delete в 1С-Битрикс: почему raw SQL и EventManager — оба не то

Bitrix, MAMP, Mysql query error: (1364)