Дам 1000WMR за решение

Тема в разделе "Решение различных задач по парсингу", создана пользователем cdcustomer, 10 окт 2012.

  1. cdcustomer

    cdcustomer New Member Пользователи

    Регистрация:
    17 мар 2012
    Сообщения:
    41
    Задача - для списка сайтов, пройтись по каждому и получить количество внешних и внутренних ссылок для каждого сайта из списка. Внешние ссылки с детализацией - на сколько доменов ссылки и сколько ссылок всего.

    Пример. Передаем в программу список из 100 сайтов.
    site1.ru
    site2.ru
    ....
    Site100.ru

    Программа берет первый сайт из списка. Парсит его. Собирает все ссылки на нем. На выходе выдает что с сайта site1.ru идут 220 внутренних ссылок. 340 внешних ссылок, ведущих на 61 домен (естественно на один домен может идти несколько внешних ссылок).
    Потом программа берет второй сайт из списка и делает тоже самое. И т.д.

    Мне нужно решение этой задачи. Заплачу 1000WMR. Может больше. Обсуждаемо. Если через CD это не решить, могу купить необходимый софт.
    Пишите предложения сюда или в личку.
     
  2. mat

    mat New Member Пользователи

    Регистрация:
    8 май 2010
    Сообщения:
    63
    Спарсить все внутренние ссылки, прогнав CD несколько раз. Либо можно попробовать загрузить карту сайта. Получим все страницы сайта, с них спарсить все внешние ссылки (указав в фильтре не добавлять ссылки, содержащие site1). Получили все внешние.
    В редакторе ссылок оставить только домены, удалить дубли. Получили количество сайтов, на которые ссылается site1.
    Но это, конечно, только для внешних ссылок.

    На wmr не претендую :D
     
  3. cdcustomer

    cdcustomer New Member Пользователи

    Регистрация:
    17 мар 2012
    Сообщения:
    41
    Тут очень много ручной работы.
    Вот если бы разделить работу на два этапа
    1) передал в CD список сайтов для проверки -> CD все проверил->получил SQL базу со всеми ссылками с каждого сайта
    2) далее любой программист мне уже напишет программу выборки из SQL нужных мне данных

    Если кто-то может выполнить первую часть, то я готов заплатить. Обязательное условие, чтобы не было ручного труда. Я только передаю список сайтов в CD и получаю SQL базу.
     
  4. cdcustomer

    cdcustomer New Member Пользователи

    Регистрация:
    17 мар 2012
    Сообщения:
    41
    Хотя бы в текстовые файлы получать результат по первой части. Необязательно MS SQL.
     
  5. cdcustomer

    cdcustomer New Member Пользователи

    Регистрация:
    17 мар 2012
    Сообщения:
    41
    Люди, дам больше денег. Предлагайте тут свои варианты.
     
  6. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    если народ не пишет решения - это означает, что его, быстрее всего, для ваших требований нет. я могу решить задачу, но там будет ОЧЕНЬ много ручной работы. насколько я понял, Вас интересует автоматизация и настройка под себя на перспективу - так что вариант с разовым черновым трудом не проходит.

    предлагаю просто офигительный вариант. свяжитесь с автором программы - Сергеем - по ICQ либо Skype. За штуку зелени он максимально подведет программу под Ваши нужды. В итоге, все получат очередное обновление программы, а Вы - решение своей задачи.
     
  7. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Очередное ноу-хау которое знать не будет дано народу? Вы уж посторайтесь описать применение нового функционала чтобы потом для всех добавить в "Система помощи" ;)
     
  8. cdcustomer

    cdcustomer New Member Пользователи

    Регистрация:
    17 мар 2012
    Сообщения:
    41
    В программе CD есть кнопка "Сканер сайтов". Войдя туда, можно ввести URL проверяемого сайта (site1.ru). И получить на выходе список всех ссылок с него и сохранить в буфер обмена, а оттуда в файл. Например site1.ru.txt
    Затем (или одновременно в другом окне) можно проделать это с site2.ru и получить файл site2.ru.txt

    Может ли кто-нибудь автоматизировать хотябы это? Чтобы я передал программе список из 1000 урлов, и на выходе получил 1000 файлов, названных по именам URLов.

    Я готов заплатить денег за это.
     

Поделиться этой страницей