GETHTML 6000 страниц-возможно ли?

Тема в разделе "Функции и интерфейс программы", создана пользователем Maxxx, 3 мар 2021.

  1. Maxxx

    Maxxx Member Пользователи

    Регистрация:
    30 май 2020
    Сообщения:
    113
    Здравствуйте. Есть сайт, в котором надо добыть ссылки на карточки товаров с 6000 страниц. Формирование GET или POST с пагинацией невозможно, как как каждая страница формируется параметром с хитрым кодом. Остается только прокликать все и собрать с каждой (по 8 ссылок на странице). Делаю ЦИФЗЗ проект, который будет кликать по значку ">" (благо он есть) и собирать код при помощи GETHTML. Но даже если брать поиском/заменой только нужные DIV, это получится огромный массив данных. После взять в ПГ 48 000 строк... Думаю, не справится мой комп или программа.
    Нет ли у программы такой функции, чтобы собирать и записывать данные в файл после каждого перехода?
     
  2. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    867
    Макрос [DOCSOURCE] - сохраняет html код текущей страницы
    Макросом [DOCNAME] - формируйте путь к файлу в который будете сохранять
    Макросом [RANDOM(1|10)] - можно генерировать случайные имена файлов
    или в качестве имени файла использовать одну из границ, в которой будете получать к примеру - артикул
    + смотрите параметры указанные на скрине

    Код:
    [DOCNAME]data\[RANDOM(1|10)].html[/DOCNAME]
    [​IMG]
     
  3. Maxxx

    Maxxx Member Пользователи

    Регистрация:
    30 май 2020
    Сообщения:
    113
    Это же не в WBAPP проекте прописывается? А после выполнения проекта. Или как-то можно сделать так, чтобы он прокликал несколько страниц, собрал в GETHTML , а потом записал через DOCSOURSE?
     
  4. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    867
    Вы вообще пробовали то что я выше написал ?
    из wbapp через GETHTML - можно вернуть код и далее его сохранить
     
  5. Maxxx

    Maxxx Member Пользователи

    Регистрация:
    30 май 2020
    Сообщения:
    113
    Спасибо, попробую. Но запустится ли после wbapp проект с той же страницы, на которой я остановился? Не пойму, как это может работать) Но все равно спасибо.
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Напишите URL, где эта пагинация.
     
    Maxxx нравится это.
  7. Maxxx

    Maxxx Member Пользователи

    Регистрация:
    30 май 2020
    Сообщения:
    113
    Здравствуйте.
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1000 постов.**
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Все нормально с этим.
     

    Вложения:

    • s5_myesb_de.cdp
      Размер файла:
      43,9 КБ
      Просмотров:
      5
    Maxxx нравится это.
  9. Maxxx

    Maxxx Member Пользователи

    Регистрация:
    30 май 2020
    Сообщения:
    113
    Спасибо, Сергей, я примерно такой же проект WBAPP делал для сбора, тоже с multiget, только попроще, конечно. Вопрос как раз был в том, сколько данных "выдержит" GETHTML, не перегрузится ли?
    **
    Попробовал, все ок, спасибо! Немного доработал, т.к. он через несколько тысяч переходов сбрасывал язык на немецкий, добавил клик на EN с условием Ifdochas
     
    Последнее редактирование: 4 мар 2021
    Root нравится это.
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста.

    И вам спасибо.
     
    Maxxx нравится это.

Поделиться этой страницей