Генерация списков ссылок с очень большим числом

Тема в разделе "Решение проблем с использованием программы", создана пользователем Damatik, 29 ноя 2015.

  1. Damatik

    Damatik New Member Пользователи

    Регистрация:
    24 сен 2012
    Сообщения:
    16
    Подскажите, пожалуйста - что я делаю не так?
    Есть раздел на сайте, в котором в сутки появляется сотня-другая страниц.
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Выделенные жирным цифры заведомо неизвестны. Вот как их сканер может вытащить?
    Настраивал фильтр, ставил глубину ссылок от 6 до 8 - не видит он нужные ссылки и все... Начинает сканировать весь сайт, а там, ессно - миллионы ссылок. Из-за пары сотен нужных ссылок парсить так долго - моветон.
    Если выставляю стартовый URL например такой
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    , не ищет вообще (найдено ссылок: 0). Что я делаю не так? В какую сторону курить?
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Что ваша первая ссылка, что вторая дают ошибки (смотрите скриншот).

    С уважением к вам, Сергей.
     

    Вложения:

  3. Damatik

    Damatik New Member Пользователи

    Регистрация:
    24 сен 2012
    Сообщения:
    16
    Вторая не работает, верно.
    Вот в этом-то и вопрос - я, видимо, неправильно понял суть работы сканера.
    Я думал ему можно задать ссылку вида
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    и он начнет обходит все, что за последним слешем... Получается - нет?

    А первая ссыль не работает, потому как (насколько я понял) подобные ей живут всего сутки и на следующий день они просто с сайта удаляются и появляются новые - обычный такой стрим получается. Вот в том-то и задача - успеть их спарсить сегодня, а завтра новые и т.д.

    ЗЫ. Еще немного подробнее опишу. В ссылке вида
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    меняется только численная часть на хвосте. Жирная часть неизменна.
    Но генерировать в шаблоне ссылок через {num} их нельзя. Т.к. разлет получится в триллионы ссылок. Потому что есть рабочие ссылки вида 0338300030615000023, а есть что-то типа этого же но с парой других цифр в середине, например 0338300032115000023. Шаблон будет их искать дольше, чем они живут. А сканер? Ведь он их не парсит, а только ищет валидные существующие ссылки. Искать можно на максимуме потоков. Что в данном случае можете посоветовать?

    Неужели все инет-магазины, которые легко парсятся имеют простую последовательность в своей изменяющейся части типа - Ссылки недоступны для гостей, Ссылки недоступны для гостей, Ссылки недоступны для гостей и тд?

    Тэкс, я немного продвинулся... Не отвечайте пока ничего )

    ЗЫ. Пришлось пофантазировать, но задачу решить удалось...
     
    Последнее редактирование: 30 ноя 2015
    Sergio37 нравится это.
  4. ilant

    ilant New Member Пользователи

    Регистрация:
    16 июн 2015
    Сообщения:
    3
    Привет! Как удалось решить задачу? Можешь поделиться?
     
  5. Sergio37

    Sergio37 New Member Пользователи

    Регистрация:
    31 мар 2019
    Сообщения:
    22
    Проблему реально удалось решить?
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
     
  7. Sergio37

    Sergio37 New Member Пользователи

    Регистрация:
    31 мар 2019
    Сообщения:
    22
    Подскажите, пожалуйста - что я делаю не так?

    Не получается сгенерировать ссылки: Ссылки недоступны для гостей

    Диапазон:31907712420 - 31907712428, шаг 1 .

    Итоговый вывод получается одна ссылка:Ссылки недоступны для гостей
     

    Вложения:

  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Число 31907712420 выходит за пределы Integer.

    Сделайте такой шаблон
    Код:
    http://zakupki.gov.ru/223/purchase/public/purchase/info/common-info.html?regNumber=319077{num}[PARAM]:319077{num}
    В диапазоне укажите:
    От 12420
    До 12428
     
  9. Sergio37

    Sergio37 New Member Пользователи

    Регистрация:
    31 мар 2019
    Сообщения:
    22
    Спасибо за помощь!!!Работает.
     
  10. Sergio37

    Sergio37 New Member Пользователи

    Регистрация:
    31 мар 2019
    Сообщения:
    22
    1. Подскажите пожалуйста, какой функцией можно зациклить диапазон, есть ли такая возможность сделать так ,чтобы диапазон в автоматическом режиме увеличивался например на 100 (12428-12420, 12421-12520....)

    Ссылки недоступны для гостей

    2. Пробую вставить key ключевые слова, при парсинге все-равно выводить где есть это слово и где нет, в итоге не получается отсортировать по нужному слову.

    Ссылки недоступны для гостей
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    1) Такой возможности нет

    2) Не понял вопроса
     
  12. Sergio37

    Sergio37 New Member Пользователи

    Регистрация:
    31 мар 2019
    Сообщения:
    22
    Спасибо за ответ.

    Да, второй вопрос некорректно задал.

    2. Цель была такая, в шаблоне вывода после парсинга показывать, только ту информация , в которой есть слово GAZ, но как то не так применяю.

    <CD_GRAN_2!>[CSVCS][STRINGSFILTER][KEYS]gaz[/KEYS][CSVCS]<CD_GRAN_1!>[CSVCS][PARAM][CSVCS]<CD_DOCURL!>

    1. При динамическом NUM без ограницения

    Ссылки недоступны для гостей: ,1}

    При отсутствии web-страницы генерация прекращается, а есть ли такое какое условие при котором : 100,101,103 есть , 105 нет, 106, 107,108 -есть ссылки,
    если нет web-страниц проверяла последующие 10 позиций и если нет прекращался бы парсинг?
     
  13. Sergio37

    Sergio37 New Member Пользователи

    Регистрация:
    31 мар 2019
    Сообщения:
    22

    Разобрался частично.Вопрос снят.
     
  14. Sergio37

    Sergio37 New Member Пользователи

    Регистрация:
    31 мар 2019
    Сообщения:
    22
    Тему перенес
     
    Последнее редактирование: 28 авг 2020
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Вы задаете вопрос в не соответствующей ему теме. Плохо.
     

Поделиться этой страницей