Одновременный парсинг разных сайтов (анализ цен конкурентов)

Тема в разделе "Решение различных задач по парсингу", создана пользователем Moonwalker, 22 май 2015.

  1. Moonwalker

    Moonwalker New Member Пользователи

    Регистрация:
    29 дек 2014
    Сообщения:
    29
    Привет, CD-сообщество!
    Пришло время от парсинга поставщиков и ассортимента переходить к другим задачам, которые хочется реализовать любимым инструментом ))
    В общем, задача тривиальная, есть 10-20 условных конкурентов. Естественно, каждый на своем движке, каждый со своим дизайном и кодом.
    Хочется настроить парсер так, чтобы он выдавал цсв, где собирал в таблицу цены по определенным позициям. Естественно, полностью сайты проходить не надо будет, страницы с нужными товарами я руками задам (в нашей нише - даже необязательно точное совпадение товаров, можно обойтись любым из коллекции - цены идентичны). Нужно просто, чтобы он все это как-то составил в единую сводную таблицу (возможно, с заданными заранее названиями строк и столбцов).
    Я здесь не столько ищу готового решения, сколько прошу подсказать, на какие конкретно инструменты CD стоит посмотреть. Скорее всего, решение простое и лежит на поверхности, просто до сих пор не сталкивался с ним из-за того, что и с задачами такими не сталкивался.
    Заранее спасибо.
     
    Lil нравится это.
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Вот и отталкивайтесь от этих условий и создавайте много проектов. Вы не сможете с 0-ми знаниями обрабатывать такие объемы, я например, и сам не уверен что такое можно, а главное нужно ли его делать. И если вдруг кто-то поменяет код, то проще проверить каждый проект, чем искать ощибку в огромном проете..
     
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Можно попробовать в виде одной настройки, где вы будете задавать список ссылок (от каких товаров с конкурентов парсить).
    Потребуется знание регулярных выражений для составления списка в глобальной поиск-замена (shift-ctrl+r), сколько магазинов столько и замен (цена, наименование), это получше чем на 10 сайтов 10 настроек.
     
  4. Moonwalker

    Moonwalker New Member Пользователи

    Регистрация:
    29 дек 2014
    Сообщения:
    29
    Тоже о чем-то подобном подумал, либо через регулярки, либо через автозамены под каждый сайт, чтобы границы парсинга в итоге выглядели единообразно. Просто думал, вдруг есть какое-то если не готовое решение, то какой-то специальный инструмент :)
    Просто очень не хочется сперва писать отдельные проекты под 20 условных сайтов (с 30-50 внутренними страницами для парсинга), потом получать 20 разных csv, а потом сводить все это в единую таблицу. Хотя, вспомнил, пока писал, что можно отключить создание нового файла csv при каждом парсинге. Главное, не забывать отключать ))) Правда, тоже не факт, что сработает, ибо логично получать все цены в одну строку, а он их все равно для каждой новой страницы будет новые создавать.
    В общем, надо покумекать и покрутить на каких-нибудь длинных выходных :) Мысль понятна, осталось реализовать. Жалко, пока нет возможности указывать CD, что и в какую ячейку ставить. Хотя, можно сперва спарсить, а потом каким-нибудь макросом в Excel все собрать в нужный столбец ))
     
  5. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    PHP_SCRIPT макросом загоняйте в базу и там уже крутить вертеть как угодно можно.
     

Поделиться этой страницей