1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 800+ и мы растем!
    Скрыть объявление

Пресет Парсим базу для XRumer: 420000 форумов за 9 часов 1.0

Парсим базу для XRumer: 420000 форумов за 9 часов

  1. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.188
    Симпатии:
    1.697
    Для парсинга будем использовать всего одно ключевое слово "forum" дополняя его подстановками цифр и букв, при этом мы не будем использовать операторы inurl: что значительно увеличит скорость парсинга

    [​IMG]

    • Используем парсер SE::Google SE::Google с пресетом 1000 Links use Proxy
    • Добавляем фильтрацию получаемых ссылок по регулярному выражению, под которое подходят только популярные форумы
    • Добавляем уникализацию ссылок по главному домену
    • Используем 2 формата запросов - перебор символов от a до zzzz и чисел от 1 до 50000
    Код:
    eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicGFyc2VycyI6W1siU0U6Okdv
    b2dsZSIsIjEwMDAgTGlua3MgdXNlIFByb3h5Iix7InR5cGUiOiJmaWx0ZXIiLCJy
    ZXN1bHQiOlsic2VycCIsImxpbmsiXSwiZmlsdGVyVHlwZSI6InJlbWF0Y2giLCJ2
    YWx1ZSI6InZpZXd0b3BpY1xcLnBocHx2aWV3Zm9ydW1cXC5waHB8dmlld3RocmVh
    ZFxcLnBocHx0aHJlYWQtfGZvcnVtXFwucGhwfHNob3d0aHJlYWRcXC5waHB8Zm9y
    dW1kaXNwbGF5XFwucGhwfFlhQkJcXC5wbHxZYUJCXFwuY2dpfHViYnRocmVhZHNc
    XC5waHB8dWx0aW1hdGViYlxcLnBocHx1bHRpbWF0ZWJiXFwuY2dpfGluZGV4XFwu
    cGhwXFw/c2hvd3RvcGljPXx0aHJlYWRzfHRvcGljfG1lbWJlcnN8bWVtYmVyXFwu
    cGhwfG1lbWJlcmxpc3RcXC5waHB8cHJvZmlsZVxcLnBocHx1c2VyaW5mb1xcLnBo
    cHx2aWV3dG9waWN8dmlld2ZvcnVtfHZpZXd0aHJlYWR8dG9waWN8dGhyZWFkfHNo
    b3d0aHJlYWR8c2hvd3RvcGljfHNob3dmb3J1bSIsIm9wdGlvbiI6ImkifSx7InR5
    cGUiOiJ1bmlxdWUiLCJyZXN1bHQiOlsic2VycCIsImxpbmsiXSwidW5pcXVlVHlw
    ZSI6InRvcGRvbWFpbiIsInVuaXF1ZUdsb2JhbCI6dHJ1ZX1dXSwicmVzdWx0c0Zv
    cm1hdCI6IiRwMS5wcmVzZXQiLCJyZXN1bHRzU2F2ZVRvIjoiZmlsZSIsInJlc3Vs
    dHNGaWxlTmFtZSI6Ik5vdi0wNV8xMS01Mi0xNS50eHQiLCJhZGRpdGlvbmFsRm9y
    bWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIsInF1ZXJ5Rm9ybWF0IjpbIiRx
    dWVyeSB7YXo6YTp6enp6fSIsIiRxdWVyeSB7bnVtOjE6NTAwMDB9Il0sInVuaXF1
    ZVF1ZXJpZXMiOmZhbHNlLCJzYXZlRmFpbGVkUXVlcmllcyI6ZmFsc2UsIml0ZXJh
    dG9yT3B0aW9ucyI6eyJvbkFsbExldmVscyI6ZmFsc2V9LCJkb0xvZyI6Im5vIiwi
    a2VlcFVuaXF1ZSI6Ik5vIiwibW9yZU9wdGlvbnMiOmZhbHNlLCJyZXN1bHRzUHJl
    cGVuZCI6IiIsInJlc3VsdHNBcHBlbmQiOiIiLCJxdWVyeUJ1aWxkZXJzIjpbXSwi
    cmVzdWx0c0J1aWxkZXJzIjpbXSwiY29uZmlnT3ZlcnJpZGVzIjpbXX0sInBhcnNl
    cnNDb25mUHJlc2V0cyI6eyJTRTo6R29vZ2xlIjp7IjEwMDAgTGlua3MgdXNlIFBy
    b3h5Ijp7InF1ZXJ5Zm9ybWF0IjoiJHF1ZXJ5IiwicGFyc2Vub3Rmb3VuZCI6dHJ1
    ZSwiZ2wiOiIiLCJwYWdlY291bnQiOiIxMCIsImRvX2d6aXAiOnRydWUsImRvbWFp
    biI6Ind3dy5nb29nbGUuY29tIiwidGltZW91dCI6IjYwIiwidXNlcHJveHkiOnRy
    dWUsImFudGlnYXRlcHJlc2V0IjoiZGVmYXVsdCIsImV4dHJhcXVlcnkiOiIiLCJs
    b2NhdGlvbiI6IiIsInVzZXNlc3Npb25zIjp0cnVlLCJzZXJwdGltZSI6IiIsImxp
    bmtzcGVycGFnZSI6IjEwMCIsImZpbHRlciI6dHJ1ZSwic2VycCI6IiIsInVzZWFu
    dGlnYXRlIjpmYWxzZSwicHJveHlyZXRyaWVzIjoiMTUiLCJyZXF1ZXN0ZGVsYXki
    OiIwIiwicHJveHliYW5uZWRjbGVhbnVwIjoiNjAwIiwiZm9ybWF0cmVzdWx0Ijoi
    JHNlcnAuZm9ybWF0KCckbGlua1xcbicpIiwicmF3ZGF0YSI6MCwibHIiOiIiLCJ1
    c2VjYXB0Y2hha2lsbGVyIjpmYWxzZSwibWF4X3NpemUiOiIyMDQ4MDAifX19fQ==

    В результате получаем базу ссылок на форумы, содержащую 421618 уникальных домена:

    [​IMG]

    За 9 часов работы:
    • Было обработано 525254 запроса на максимальную глубину
    • Спаршено 68 миллионов ссылок, 420к из которых подходят под фильтр и уникальны по домену
    • Средняя скорость парсинга составила 1000 запросов в минуту
     
  2. qazwsxedc

    qazwsxedc A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 ноя 2012
    Сообщения:
    92
    Симпатии:
    14
    1к потоков, это сколько проксей надо живых. И насколько быстрых...
    На паблик проксях такая скорость нереальна. А покупные прокси в 1к потоков вылезут в копеечку...

    А так да, все реально, апарсер рулит)
     
  3. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.188
    Симпатии:
    1.697
    отнюдь, авмпрокси безлимит 195 в месяц
     
  4. amt999

    amt999 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    11 ноя 2014
    Сообщения:
    2
    Симпатии:
    0
    Главное, что бы от базы толк был потом. Пробив хрумера упал, будет к декабрю. Парсить надо много и продавать, продавать
     
  5. high_skill

    high_skill A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 июн 2013
    Сообщения:
    61
    Симпатии:
    7
    подскажите пожалуйста как в результаты разделять по движкам ?

    viewtopic\.php|viewforum\.php|viewthread\.php|thread-|forum\.php|showthread\.php|forumdisplay\.php|YaBB\.pl|YaBB\.cgi|ubbthreads\.php|ultimatebb\.php|ultimatebb\.cgi|index\.php\?showtopic=|threads|topic|members|member\.php|memberlist\.php|profile\.php|userinfo\.php|viewtopic|viewforum|viewthread|topic|thread|showthread|showtopic|showforum

    как в топике http://a-parser.com/threads/1249/ Определяем CMS для 1000000 доменов за 15 часов

    в папку top-1m/ будем сохранять домены автоматически сортируя имена файлов по названию CMS(т.е. в файле WordPress.txt будут только домены с вордпрессом и так аналогично для всех определившихся CMS)


    заранее благодарю всех !
     
  6. high_skill

    high_skill A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 июн 2013
    Сообщения:
    61
    Симпатии:
    7
    а что мешает купить готового сокс бота? либо накодить ?

    готовых продуктов полно . от вин ботов до никс сокс ботов ...
     
  7. qazwsxedc

    qazwsxedc A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 ноя 2012
    Сообщения:
    92
    Симпатии:
    14
    Здравый смысл мешает)
     
  8. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.188
    Симпатии:
    1.697
    проще всего вторым заданием, используя Rank::CMS Rank::CMS, так же как описано в том топике
     
  9. Dellius

    Dellius A-Parser Pro License
    A-Parser Pro

    Регистрация:
    18 окт 2014
    Сообщения:
    16
    Симпатии:
    1
    Thank you for this wonderful tutorial.

    I am, however encountering small problems with it.

    I am 34% into the project and I only got about 600 links.

    Screenshot attached.

    [​IMG]

    I used the regEx from this post, if this matters:
    Код:
    viewtopic\.php|viewforum\.php|viewthread\.php|thread-|forum\.php|showthread\.php|forumdisplay\.php|YaBB\.pl|YaBB\.cgi|ubbthreads\.php|ultimatebb\.php|ultimatebb\.cgi|index\.php\?showtopic=|threads|topic|members|member\.php|memberlist\.php|profile\.php|userinfo\.php|viewtopic|viewforum|viewthread|topic|thread|showthread|showtopic|showforum
    Here are my project settings.

    [​IMG]
     
    #9 Dellius, 14 ноя 2014
    Последнее редактирование: 14 ноя 2014
  10. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.188
    Симпатии:
    1.697
    Sorry for long answer, this problem is because all of your queries are failed, due to overuse proxies subscription
     
  11. WarGuss

    WarGuss A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 фев 2015
    Сообщения:
    6
    Симпатии:
    0
    Подскажите пожалуйста, под Яндекс аналогичные настройки можно ставить?
     
  12. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.188
    Симпатии:
    1.697
    да, поменяй просто гугл на яндекс, остальное все также
     
  13. qazwsxedc

    qazwsxedc A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 ноя 2012
    Сообщения:
    92
    Симпатии:
    14
    А не думал парсить да продавать такие базы?

    Для хрумера и апостера ?)
     
  14. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.188
    Симпатии:
    1.697
    кто? я? нет конечно :)
     
  15. WarGuss

    WarGuss A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 фев 2015
    Сообщения:
    6
    Симпатии:
    0
    если относится вопрос ко мне, то я и так паршу базу для хрума а-парсером :) ну а продавать свои базы чет нет желания!
     
  16. CPUTER

    CPUTER A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    1 апр 2015
    Сообщения:
    3
    Симпатии:
    13
    Код:
    المنتدى
    Foruma
    Форум
    Fòrum
    论坛
    論壇
    Forum
    Fórum
    Foorum
    Φόρουμ
    Foròm
    פורום
    फोरम
    Rooj sab laj
    Fórum
    Cose da fare
    フォーラム
    Jukwaa la
    포럼
    Forums
    Forumas
    Foro
    تالار گفتگو
    Fórum
    Forumet
    ฟอรั่ม
    فورم
    Diễn đàn
    Fforwm
    
     
    #16 CPUTER, 14 май 2016
    Последнее редактирование: 14 май 2016
    Gray12, Jack, pix и 9 другим нравится это.
  17. aliasfox

    aliasfox A-Parser Pro License
    A-Parser Pro

    Регистрация:
    17 окт 2015
    Сообщения:
    10
    Симпатии:
    6
    помогите пож. с пресетом - нужен сбор форумов за последнюю неделю из гугла
     
  18. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    2.785
    Симпатии:
    1.650
    aliasfox нравится это.
  19. Nikky

    Nikky A-Parser Pro License
    A-Parser Pro

    Регистрация:
    29 апр 2016
    Сообщения:
    17
    Симпатии:
    1
    Подскажите такой вопрос. Этим пресетом я пытаюсь напарсить определенную цмс.
    Запросы использую такие:
    "inurl:признак"
    "inurl:признак2"

    Тестовый парсинг выдал мне за 5 дней 470к уникальных результатов, из 9 миллионов неуникальных. При этом было более 80% ошибок.
    Парсинг запускался на локальной машине, с каналом интернета в 1 мегабит и на 50 потоков, без антигейта.

    Вопрос: как увеличить скорость и какие этапы наиболее на это влияют?

    Мы хотим:
    - Поставить это все на более мощный сервер с широким каналом интернета.
    - Запустить парсинг в 300 потоков.
    - Включить антигейт.

    Что из этого будет более рациональным шагом для максимального ускорения парсинга или нужны иные меры?
     
  20. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    2.785
    Симпатии:
    1.650
    Все это увеличит общую скорость парсинга.
    Канал в 1 мбит, это очень мало. Желательно иметь 50, а еще лучше 100 мбит.
    Антигейт позволит решать каптчи и парсер не будет тратить время в попытках спарсить данные.
    А большое кол-во потоков позволит отправлять большее кол-во запросов, что в данном случае тоже должно увеличить скорость.
     
    Forbidden нравится это.

Поделиться этой страницей