Парсинг базы форумов для XRumer

Пресет Парсим базу для XRumer: 420000 форумов за 9 часов 1.0

Available for license holders

Forbidden

Administrator
Команда форума
A-Parser Enterprise
Для парсинга будем использовать всего одно ключевое слово "forum" дополняя его подстановками цифр и букв, при этом мы не будем использовать операторы inurl: что значительно увеличит скорость парсинга

LE7RB.png


  • Используем парсер SE::Google SE::Google с пресетом 1000 Links use Proxy
  • Добавляем фильтрацию получаемых ссылок по регулярному выражению, под которое подходят только популярные форумы
  • Добавляем уникализацию ссылок по главному домену
  • Используем 2 формата запросов - перебор символов от a до zzzz и чисел от 1 до 50000
Код:
eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicGFyc2VycyI6W1siU0U6Okdv
b2dsZSIsIjEwMDAgTGlua3MgdXNlIFByb3h5Iix7InR5cGUiOiJmaWx0ZXIiLCJy
ZXN1bHQiOlsic2VycCIsImxpbmsiXSwiZmlsdGVyVHlwZSI6InJlbWF0Y2giLCJ2
YWx1ZSI6InZpZXd0b3BpY1xcLnBocHx2aWV3Zm9ydW1cXC5waHB8dmlld3RocmVh
ZFxcLnBocHx0aHJlYWQtfGZvcnVtXFwucGhwfHNob3d0aHJlYWRcXC5waHB8Zm9y
dW1kaXNwbGF5XFwucGhwfFlhQkJcXC5wbHxZYUJCXFwuY2dpfHViYnRocmVhZHNc
XC5waHB8dWx0aW1hdGViYlxcLnBocHx1bHRpbWF0ZWJiXFwuY2dpfGluZGV4XFwu
cGhwXFw/c2hvd3RvcGljPXx0aHJlYWRzfHRvcGljfG1lbWJlcnN8bWVtYmVyXFwu
cGhwfG1lbWJlcmxpc3RcXC5waHB8cHJvZmlsZVxcLnBocHx1c2VyaW5mb1xcLnBo
cHx2aWV3dG9waWN8dmlld2ZvcnVtfHZpZXd0aHJlYWR8dG9waWN8dGhyZWFkfHNo
b3d0aHJlYWR8c2hvd3RvcGljfHNob3dmb3J1bSIsIm9wdGlvbiI6ImkifSx7InR5
cGUiOiJ1bmlxdWUiLCJyZXN1bHQiOlsic2VycCIsImxpbmsiXSwidW5pcXVlVHlw
ZSI6InRvcGRvbWFpbiIsInVuaXF1ZUdsb2JhbCI6dHJ1ZX1dXSwicmVzdWx0c0Zv
cm1hdCI6IiRwMS5wcmVzZXQiLCJyZXN1bHRzU2F2ZVRvIjoiZmlsZSIsInJlc3Vs
dHNGaWxlTmFtZSI6Ik5vdi0wNV8xMS01Mi0xNS50eHQiLCJhZGRpdGlvbmFsRm9y
bWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIsInF1ZXJ5Rm9ybWF0IjpbIiRx
dWVyeSB7YXo6YTp6enp6fSIsIiRxdWVyeSB7bnVtOjE6NTAwMDB9Il0sInVuaXF1
ZVF1ZXJpZXMiOmZhbHNlLCJzYXZlRmFpbGVkUXVlcmllcyI6ZmFsc2UsIml0ZXJh
dG9yT3B0aW9ucyI6eyJvbkFsbExldmVscyI6ZmFsc2V9LCJkb0xvZyI6Im5vIiwi
a2VlcFVuaXF1ZSI6Ik5vIiwibW9yZU9wdGlvbnMiOmZhbHNlLCJyZXN1bHRzUHJl
cGVuZCI6IiIsInJlc3VsdHNBcHBlbmQiOiIiLCJxdWVyeUJ1aWxkZXJzIjpbXSwi
cmVzdWx0c0J1aWxkZXJzIjpbXSwiY29uZmlnT3ZlcnJpZGVzIjpbXX0sInBhcnNl
cnNDb25mUHJlc2V0cyI6eyJTRTo6R29vZ2xlIjp7IjEwMDAgTGlua3MgdXNlIFBy
b3h5Ijp7InF1ZXJ5Zm9ybWF0IjoiJHF1ZXJ5IiwicGFyc2Vub3Rmb3VuZCI6dHJ1
ZSwiZ2wiOiIiLCJwYWdlY291bnQiOiIxMCIsImRvX2d6aXAiOnRydWUsImRvbWFp
biI6Ind3dy5nb29nbGUuY29tIiwidGltZW91dCI6IjYwIiwidXNlcHJveHkiOnRy
dWUsImFudGlnYXRlcHJlc2V0IjoiZGVmYXVsdCIsImV4dHJhcXVlcnkiOiIiLCJs
b2NhdGlvbiI6IiIsInVzZXNlc3Npb25zIjp0cnVlLCJzZXJwdGltZSI6IiIsImxp
bmtzcGVycGFnZSI6IjEwMCIsImZpbHRlciI6dHJ1ZSwic2VycCI6IiIsInVzZWFu
dGlnYXRlIjpmYWxzZSwicHJveHlyZXRyaWVzIjoiMTUiLCJyZXF1ZXN0ZGVsYXki
OiIwIiwicHJveHliYW5uZWRjbGVhbnVwIjoiNjAwIiwiZm9ybWF0cmVzdWx0Ijoi
JHNlcnAuZm9ybWF0KCckbGlua1xcbicpIiwicmF3ZGF0YSI6MCwibHIiOiIiLCJ1
c2VjYXB0Y2hha2lsbGVyIjpmYWxzZSwibWF4X3NpemUiOiIyMDQ4MDAifX19fQ==

В результате получаем базу ссылок на форумы, содержащую 421618 уникальных домена:

p7pOr.png


За 9 часов работы:
  • Было обработано 525254 запроса на максимальную глубину
  • Спаршено 68 миллионов ссылок, 420к из которых подходят под фильтр и уникальны по домену
  • Средняя скорость парсинга составила 1000 запросов в минуту
 
Последнее редактирование:
1к потоков, это сколько проксей надо живых. И насколько быстрых...
На паблик проксях такая скорость нереальна. А покупные прокси в 1к потоков вылезут в копеечку...

А так да, все реально, апарсер рулит)
 
Главное, что бы от базы толк был потом. Пробив хрумера упал, будет к декабрю. Парсить надо много и продавать, продавать
 
подскажите пожалуйста как в результаты разделять по движкам ?

viewtopic\.php|viewforum\.php|viewthread\.php|thread-|forum\.php|showthread\.php|forumdisplay\.php|YaBB\.pl|YaBB\.cgi|ubbthreads\.php|ultimatebb\.php|ultimatebb\.cgi|index\.php\?showtopic=|threads|topic|members|member\.php|memberlist\.php|profile\.php|userinfo\.php|viewtopic|viewforum|viewthread|topic|thread|showthread|showtopic|showforum

как в топике http://a-parser.com/threads/1249/ Определяем CMS для 1000000 доменов за 15 часов

в папку top-1m/ будем сохранять домены автоматически сортируя имена файлов по названию CMS(т.е. в файле WordPress.txt будут только домены с вордпрессом и так аналогично для всех определившихся CMS)


заранее благодарю всех !
 
1к потоков, это сколько проксей надо живых. И насколько быстрых...
На паблик проксях такая скорость нереальна. А покупные прокси в 1к потоков вылезут в копеечку...

А так да, все реально, апарсер рулит)

а что мешает купить готового сокс бота? либо накодить ?

готовых продуктов полно . от вин ботов до никс сокс ботов ...
 
Thank you for this wonderful tutorial.

I am, however encountering small problems with it.

I am 34% into the project and I only got about 600 links.

Screenshot attached.

atml5fe.png


I used the regEx from this post, if this matters:
Код:
viewtopic\.php|viewforum\.php|viewthread\.php|thread-|forum\.php|showthread\.php|forumdisplay\.php|YaBB\.pl|YaBB\.cgi|ubbthreads\.php|ultimatebb\.php|ultimatebb\.cgi|index\.php\?showtopic=|threads|topic|members|member\.php|memberlist\.php|profile\.php|userinfo\.php|viewtopic|viewforum|viewthread|topic|thread|showthread|showtopic|showforum

Here are my project settings.

FGvQ7zp.png
 
Последнее редактирование:
Подскажите пожалуйста, под Яндекс аналогичные настройки можно ставить?
 
да, поменяй просто гугл на яндекс, остальное все также
 
Код:
المنتدى
Foruma
Форум
Fòrum
论坛
論壇
Forum
Fórum
Foorum
Φόρουμ
Foròm
פורום
फोरम
Rooj sab laj
Fórum
Cose da fare
フォーラム
Jukwaa la
포럼
Forums
Forumas
Foro
تالار گفتگو
Fórum
Forumet
ฟอรั่ม
فورم
Diễn đàn
Fforwm
 
Последнее редактирование:
помогите пож. с пресетом - нужен сбор форумов за последнюю неделю из гугла
 
Подскажите такой вопрос. Этим пресетом я пытаюсь напарсить определенную цмс.
Запросы использую такие:
"inurl:признак"
"inurl:признак2"

Тестовый парсинг выдал мне за 5 дней 470к уникальных результатов, из 9 миллионов неуникальных. При этом было более 80% ошибок.
Парсинг запускался на локальной машине, с каналом интернета в 1 мегабит и на 50 потоков, без антигейта.

Вопрос: как увеличить скорость и какие этапы наиболее на это влияют?

Мы хотим:
- Поставить это все на более мощный сервер с широким каналом интернета.
- Запустить парсинг в 300 потоков.
- Включить антигейт.

Что из этого будет более рациональным шагом для максимального ускорения парсинга или нужны иные меры?
 
- Поставить это все на более мощный сервер с широким каналом интернета.
- Запустить парсинг в 300 потоков.
- Включить антигейт.
Все это увеличит общую скорость парсинга.
Канал в 1 мбит, это очень мало. Желательно иметь 50, а еще лучше 100 мбит.
Антигейт позволит решать каптчи и парсер не будет тратить время в попытках спарсить данные.
А большое кол-во потоков позволит отправлять большее кол-во запросов, что в данном случае тоже должно увеличить скорость.
 
Назад
Верх