Поиск по критериям внутри кода

Тема в разделе "Решение различных задач по парсингу", создана пользователем dexperanto, 13 апр 2018.

  1. dexperanto

    dexperanto New Member Пользователи

    Регистрация:
    21 ноя 2014
    Сообщения:
    123
    День добрый.
    Столкнулся с проблемой сильно вложенных циклов.
    Суть такова.
    Есть страница Ссылки недоступны для гостей
    Нужно на ней:
    1. Найти по окончанию ссылки такую же около схему справа, и вывести из кода её координаты.
    2. Вывести ссылку на схему, около которой в столбике стоит эта запчасть.

    Проблему осложняет то, что схем с одной ссылкой может быть несколько.
    Я всё это реализовал через 3 повторяющиеся границы.
    Первая собирает из списка оемы, вторая ищет справка в списках ссылку на запчасть, и третья скачивает текущую схему.
    Но получилось, что если оем, к примеру, 15. То первый цикл выполнится 15 раз. Если с такой запчастью, к примеру, попалось 2 схему, то уже 30 раз. И получается, что 30 раз скачает 2 картинки. Короче, с вложенными циклами повторяющимися всё не то.

    Может быть есть какой-то вариант через регулярку?
    Но я думаю вряд ли.
    Границы со ссылками на схему далеко, там по-хитрому всё устроено.
    Проект приложил.
     

    Вложения:

  2. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    868
    парсил этот сайт некоторое время назад

    Пересмотрите логику обработки данных
    Как вариант парсить в два этапа
    1) собрать все значения - удалить дубли
    2) собрать по отсортированным ссылкам данные

    [​IMG]
     
  3. dexperanto

    dexperanto New Member Пользователи

    Регистрация:
    21 ноя 2014
    Сообщения:
    123
    Там 300кк запчастей)
    повторно проходить группы даже не вариант.
    Хотелось бы сразу как-то выцеплять.
    Я сейчас реализовал это немного по-другому, но почему-то получаются ложные срабатывания, даже когда вообще пустота в значениях.
     

Поделиться этой страницей