Парсинг сайтов по движку

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем greate, 5 май 2015.

  1. greate

    greate New Member Пользователи

    Регистрация:
    28 мар 2015
    Сообщения:
    17
    Здравствуйте. такой вопрос. мне нужны адреса сайтов в определенном каталоге в определенной группе. пример каталог лайвинтернет - категория дом и семья. С получением сайтов проблем особых не возникло, но дело в том, что мне не нужны все сайты, нужны только определенные движки, джумла к примеру. В категории 26к сайтов - хотелось бы отобрать те, с коими возможно попытаться работать. Как отобрать сайты, сделаные только на джумле??? С фильтрами особо не разбирался, там есть такая возможность -отобрать именно по движкам во время парсинга??? Если есть, достаточно одного образца, дальше сам разберусь, скажите куда тыкать. по интернету шарился - вроде можно. Версия - ультимат.
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    На сайтах цепляете границей то что всегда точно есть и это за проверку сойдет.
     
    Последнее редактирование: 5 май 2015
  3. greate

    greate New Member Пользователи

    Регистрация:
    28 мар 2015
    Сообщения:
    17
    А как цеплять то??? куда ету цеплялку пихать??
     
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    На ваше усмотрение, любая уникальная часть кода которая присутствует только у этого искомого движка.
     
  5. greate

    greate New Member Пользователи

    Регистрация:
    28 мар 2015
    Сообщения:
    17
    А можно для особо одаренных?? Допустим признаки движка есть. куда зайти и где написать признаки движка?? никак не пойму
     
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Примеры сайтов в хайде укажите (несколько ссылок).
    Опишите детально что вы хотите от программы, чтоб после парсинга вам сохраняла файл, содержимое файла какое?
    Чтобы мы могли вам помочь.
     
    Последнее редактирование: 5 май 2015
  7. greate

    greate New Member Пользователи

    Регистрация:
    28 мар 2015
    Сообщения:
    17
    Я уже написал же. Я спарсил все ссылки с раздела лайвинтерент. но там куча движков, которые мне не нужны. как сделать так, чтобы программа во время парсинга ссылок определяла, что если сайт с нужным движком, то добавлять его в список, иначе пропускать.
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Обратите внимание на макрос [CHECKENTRY] (Ссылки недоступны для гостей).

    С уважением к вам, Сергей.
     
  9. greate

    greate New Member Пользователи

    Регистрация:
    28 мар 2015
    Сообщения:
    17
    мне контент не нужен, нужны только адреса. нужен вывод в текстовый файл адресов сайтов. вытащил все ссылки к примеру вот с этой страницы
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    , получилось ровно 30 ссылок как и положено, а что дальше, ума не приложу. макросы надо ставить во время парсинга ссылок или парсинга контента??? и куда??
     
  10. greate

    greate New Member Пользователи

    Регистрация:
    28 мар 2015
    Сообщения:
    17
    Собственно со своей проблемой я разобрался. Добавил фильтры без макросов. А можно ли сделать так: К адресу сайта добавляем нужную строку и проверяем ответ сервера. С добавлением вроде проблем не должно быть, а ответ сервера можно как то проверить? Тыкал вручную, они отличаются - 400 и 500. А есть ли возможность отсеивать еще и по ответу??? К примеру - если 400, то записываем в файл, 500 - не записываем.
     

Поделиться этой страницей