[Вопрос] Автоматизация, работа фильтра ссылок с java-скриптом

Тема в разделе "Разное", создана пользователем Hohol850, 5 сен 2012.

  1. Hohol850

    Hohol850 New Member Пользователи

    Регистрация:
    5 сен 2012
    Сообщения:
    2
    Добрый день. Заранее извиняюсь, если создал тему не в том разделе.
    Нас заинтересовала Ваша программа Content Downloader.
    Перед покупкой хотелось бы прояснить некоторые моменты:
    1)Как обстоят дела с автоматизацией парсинга. Задача в следующем: по рассписанию программа должна парсить в основном текстовый контент с указанных страниц в MySQL-базу находящуюся на внешнем сервере (хостинге). Насколько я понял с автоматизацией проблем нет, но вот возможно ли будет парсить данные в базу на внешнем сервере?
    Такая необходимость возникла ввиду невозможности запустить программу на nix-сервере, где находится база данных.
    2)Каково бысродействие программы (мы говорим о версии с 50 потоками)? То есть за сколько программа спарсит каталог, например магазина exist или ulmart? Какой канал связи для этого необходим учитывая первый пункт?
    Заранее спасибо за ответы.
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    1. Можно в базу на внешнем сервере но смотря какой у вас php скрипт.
    2. Парсить в 50 потоков это очень быстро полуается, с учетом что у вас хороший интернет (сравнимо со скачкой фильма через торрент)
     
  3. Hohol850

    Hohol850 New Member Пользователи

    Регистрация:
    5 сен 2012
    Сообщения:
    2
    1)А насколько быстро, если в минутах, примерно естественно? Дело в том, что необходимо парсить по 100 магазинов типа ulmart каждое утро. Будет ли парсер успевать скажем за 4 часа всё спарсить?
    2)Будет ли работать фильтр ссылок с каталогими типа elcats, где url страницы с товаром генерируется java-скриптом и по виду url не ясно страница эта с товаром или какая-то другая?
    3)Опять же насколько должен быть хороший интернет? 10 мегабит хватит для задач из пункта 1?
     
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Не вижу в ваших вопросах проблем, все пункты выполнимы, а насчет скорости парсинга зависит от вашего интернета. Единственный ньюанс - с места в карьер не получится сразу, надо освоить программу сначало и задачи решите любые (для этого обширное поучительное пособие написано автором с видео)
     
  5. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Регистрация:
    23 окт 2010
    Сообщения:
    152
    100 магазинов уровня ulmart ("About 19,500,000 results" in google) за 4 часа да еще и на 10 мегабитах? И чтобы без банов, наверное?

    "– Фантастика на втором этаже" )))

    И дело тут совсем не программе. При таких запросах нужен качественно иной подход уже...
     
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    PHP:
    inurl:http://www.ulmart.ru/goods/
    Результатов: примерно 3 170 000

    Да уж магазинчик не маленький, на 3 миллиона уйдет не меньше дня на парсинг в 50 потоков, с такими парсингами не пзовидуешь вашему HDD :D
     

Поделиться этой страницей