проблема с 2gis

Тема в разделе "WBAppIE", создана пользователем seodamage, 1 дек 2014.

  1. seodamage

    seodamage New Member Пользователи

    Регистрация:
    5 фев 2014
    Сообщения:
    31
    Привет, посмотрел ролик и полностью повторил как описано в новости Ссылки недоступны для гостей

    По такому же принципу спарсил
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    интернет магазинов (вышло 994 ссылки, столько же пишет и в браузере)

    Далее возникла потребность спарсить данные с этих страниц:
    название, адрес, телефон, сайт и специализацию магазинов.

    Попробовал спарсить как обычно, вставив все ссылки в поле ввода ссылок, но при предпросмотре писало ошибку http payment required. Пробовал подставить кукисы из LiveHttpHeaders и включать обработку js, но ошибка не уходила.

    Решил пойти другим путем и и сделал чтобы каждая ссылка открывалась сначала в wbapp, прокручивалась и ждала 1000 мсек. Настроил границы парсинга и вроде бы процесс пошел.

    Но теперь уже часа 3 мучаюсь - почему то парсит не все. В данный момент из 464 ссылок в csv сохранились только 113 :confused:

    Я уже и паузу поставил 5000 мсек везде где интуитивно какой то параметр программы мог бы повлиять на сохранение всех результатов покапался, но проблему так и не решил. Примечательно что в логе парсинга ссылок пишет что все ссылки успешно загрузились. Помогите пожалуйста разобратся и выявить почему сохраняются не все результаты. Паршу в 1 поток в ctrl + h стоит 30000(connect time out) и отмечен чекбокс инди

    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 5 постов.**
     
    Последнее редактирование: 1 дек 2014
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    без проекта тут помоему туго
     
  3. seodamage

    seodamage New Member Пользователи

    Регистрация:
    5 фев 2014
    Сообщения:
    31
    версия CD последняя, проект приложен в хайден блоке. По итогу из 994 ссылок на организации в csv попали только 566:

    Как уже писал - парсил в 1 поток через wbapp

    ctrl + h = 30000 msec(connect time out) и отмечен чекбокс инди
    wbapp = wait 1000 msec
    таймаут проверки загрузки документа MC = 5000 msec

    В логе парсинга ссылок все ссылки загружены и нет ни одной красной
    В обычных границах парсинга не стоит чекбокса "обязательна"


    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 5 постов.**
     
    Последнее редактирование: 2 дек 2014

Поделиться этой страницей