Как фильтровать результат парсинга по вхождениям? (knigopoisk org)

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем SequelONE, 27 авг 2017.

  1. SequelONE

    SequelONE New Member Пользователи

    Регистрация:
    27 апр 2017
    Сообщения:
    63
    Всем привет. Собираюсь парсить авторов книг ужасов, но фильтрации как таковой на сайте нет, только фио, фото, описание, но ниже на странице списки жанров в которых данный автор пишет книги. Весь сайт походу через метод POST работает. По этому параметров в ссылках нет. (( Так вот, как лучше всего спарсить всех авторов только отдельных жанров, скажем триллеры, ужасы, мистика? Вот сайт исходный
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 100 постов.**
     
    Последнее редактирование: 27 авг 2017
  2. SequelONE

    SequelONE New Member Пользователи

    Регистрация:
    27 апр 2017
    Сообщения:
    63
    Нашёл только это
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 100 постов.**
    но параметр genre_id не работает, а выкачивать всех не нужно( Ну или можно спарсить все ссылки на авторов, а при парсинге контента фильтр сделать на добавление только нужных авторов по тэгам?
     
  3. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Добрый день!

    Не совсем понятно, в чём проблема. На сайте есть фильтрация по жанрам. Например, вот интересующий вас жанр (Хоррор/Ужасы)
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    .
     
  4. SequelONE

    SequelONE New Member Пользователи

    Регистрация:
    27 апр 2017
    Сообщения:
    63
    Так с книгами как раз проблем нет. Нужно спарсить биографии авторов. Ссылок собралось около 10к, а как их фильтровать по жанрам, в которых пишут эти авторы непонятно.
     
  5. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Обратите внимание, что по приведённой мной выше ссылке, указывается книга и сразу есть ссылка на автора, что упрощает вашу задачу. Генерируете ссылки, настраиваете фильтр(
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    ). Как-то так.

    Или, если не ищете лёгких путей, можно парсить книги и через getmorecontent получать ту же ссылку на автора и парсить биографию. :)

    [​IMG]
     
    Последнее редактирование: 28 авг 2017
  6. SequelONE

    SequelONE New Member Пользователи

    Регистрация:
    27 апр 2017
    Сообщения:
    63
    Ну тогда вопрос касаемо дублей, там же наберётся куча ссылок похожишь эти настройки где вносить? Через поиск замена после того как ссылки спарсятся? И ещё вопрос, а можно ли парсить сразу в несколько csv таблиц? То есть сразу авторов и книги?
     
  7. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    После парсинга ссылок нажать в поле со ссылками правую кнопку мышки и выбрать Удалить дубли ссылок.
    А парсить в несколько таблиц вполне себе можно(я так понимаю, ячееек). Если же имеется ввиду парсинг в разные файлы, то используйте макрос savetofile.
     
    Последнее редактирование: 28 авг 2017
    SequelONE нравится это.
  8. SequelONE

    SequelONE New Member Пользователи

    Регистрация:
    27 апр 2017
    Сообщения:
    63
    А возможно ли парсить в 2 файла CSV? Или всё последовательно только?
     
  9. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Макрос savetofile.
     
    SequelONE нравится это.
  10. SequelONE

    SequelONE New Member Пользователи

    Регистрация:
    27 апр 2017
    Сообщения:
    63
    Спасибо большое. Сейчас буду химичить)
     
  11. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Удачи! ;)
     
  12. SequelONE

    SequelONE New Member Пользователи

    Регистрация:
    27 апр 2017
    Сообщения:
    63
    А можно как-то в первый столбец csv файла вписывать ID с auto_increment? А потом брать ID и создавать новый файл CSV со связями? Скажем я через границы повторяющегося поиска паршу жанры, у каждой книги их от 1 до 5 и нужно чтобы к примеру из 5 жанров принадлежащих одной книги мне нужно их загрузить в CSV таблицы, чтобы каждая запись с жанром была на отдельной строке и брала ID от спарсенной книги? Это бы конечно сэкономило уйму времени со связями таблиц.
     
  13. SequelONE

    SequelONE New Member Пользователи

    Регистрация:
    27 апр 2017
    Сообщения:
    63
    Вот что у меня получилось настроить с границами парсинга:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 100 постов.**
    Второй файл CSV я создаю с повторяющимися границами поиска. Понимаю что как-то через функцию поиск-замена это нужно сделать. Вот что там у меня:

    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 100 постов.**
    Если проверку делать только по этому файлу, то получаем вот такую таблицу:

    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 100 постов.**
    А нужно собственно 3 столбца Название, ID, Жанр и чтобы Название и ID дублировалось в таблице. Вот никак не могу с этим разобраться(((
     
  14. SequelONE

    SequelONE New Member Пользователи

    Регистрация:
    27 апр 2017
    Сообщения:
    63
    У меня получилось таки настроить. В поиск-замена вставил это

    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 100 постов.**
    И всё стало выводится:

    [​IMG]
     
    Root нравится это.

Поделиться этой страницей