Проект с большим числом повторяющихся границ, пропуск ссылок

Тема в разделе "Решение различных задач по парсингу", создана пользователем Atms, 14 июн 2018.

  1. Atms

    Atms Member Пользователи

    Регистрация:
    26 авг 2015
    Сообщения:
    23
    Здравствуйте! Столкнулся в который раз с проблемой, когда в проекте возникает много повторяющихся границ. CD_DOCURL отрабатывает некорректно + возникает множество пропусков ссылок.
    Пробовал множество маневров с кол-вом потоков, паузами и т.д.
    Подскажите пожалуйста варианты. Проект приложил.
     

    Вложения:

    • zoon_ru2.cdp
      Размер файла:
      66,2 КБ
      Просмотров:
      9
  2. Atms

    Atms Member Пользователи

    Регистрация:
    26 авг 2015
    Сообщения:
    23
    Проблема ещё актуальна, может кто помочь?
     
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.296
    Из первого сообщения не понятно чем можно помочь. Подробнее можете описать что парсите и в каком виде желаете получать результат?
     
  4. Atms

    Atms Member Пользователи

    Регистрация:
    26 авг 2015
    Сообщения:
    23
    На выходе получаю структуру услуг (она формируется верно) + конечный файл, в котором название конкретной клиники, список оказываемых ею мед процедур, мед операций их цен, характеристик. Однако функция CD_DOCURL выдает некорректные данные видимо ввиду того что в процессе выполнения повторяющихся границ к примеру первой ссылки, остальные ссылки продолжают по списку идти. Что более проблематичнее, возникает пропуск ссылок, даже если парсю в один поток. Может есть какая опция, паузы именно между отработками ссылок.
     
  5. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.296
    CD_DOCURL это ссылка из списка с которой парсер собрал всю информацию.
    Воспроизвести ошибку не удалось.
     
  6. Atms

    Atms Member Пользователи

    Регистрация:
    26 авг 2015
    Сообщения:
    23
    К примеру, в процессе обработки появляется в папке Прием\Консультации специалистов\Маммолог файл "Международный клинический центр АКТИВМЕД" Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! . В нем URL Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! хотя данные взяты со страницы
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    К тому времени как обходятся все повторяющиеся границы страницы Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! список ссылок всё идет и идет, полагаю получается пропуск ссылок. Если указывать больше паузу между запросами, то все данные по ценам на услуги тоже не успевают собираться.
     
  7. Atms

    Atms Member Пользователи

    Регистрация:
    26 авг 2015
    Сообщения:
    23
    Может кто понять что я сделал не так ?
     
    Последнее редактирование: 21 июн 2018
  8. kdmc

    kdmc New Member Пользователи

    Регистрация:
    17 апр 2018
    Сообщения:
    2
    Город:
    Москва
    Подскажите, решение этой проблемы найдено?
     
  9. Atms

    Atms Member Пользователи

    Регистрация:
    26 авг 2015
    Сообщения:
    23
    Мне помогло выставление опции "Парсить в 1 файл".
     
Similar Threads
  1. chumaty
    Ответов:
    1
    Просмотров:
    980
  2. prah
    Ответов:
    2
    Просмотров:
    832
  3. artproma
    Ответов:
    9
    Просмотров:
    802
  4. dmitry__k
    Ответов:
    4
    Просмотров:
    908
  5. anton2
    Ответов:
    3
    Просмотров:
    702
Загрузка...

Поделиться этой страницей