Подскажите как парсить базу для хрумера по признакам

  • Автор темы Автор темы S10n4eg
  • Дата начала Дата начала

S10n4eg

A-Parser Enterprise License
A-Parser Enterprise
Здравствуйте вчера купил хрумер сижу разбираюсь) Вот настройки какие я сделал для парсера:
1377615835-clip-55kb.png

Настройки для парсинга:
1377616110-clip-67kb.png

В результате я напарсил из 160 признаков 3000 доменов вот такого вида:
Код:
http://www.dnewmanmd.org/qa/index.php?qa=28822&qa_1=bbs-0755lexus-com-viewthread-php-tid-809547&extra
http://www.freeknowledge4u.com/showthread.php?9387-99sr.com-bbs-viewthread.com-blogs-viewstory-423429-http&p=13863
http://citi-build.com/forum/m/2311247/viewthread/2187876-team-fortress-2-server-join-us.
http://www.doublefine.com/forums/viewthread/3929/
http://www.on9g.com/en/viewthread.php?tid=16567
http://www.watthasung.com/wat/viewthread.php?tid=680
http://forum.joyopark.com/viewthread.php?tid=2768&extra=page=1
http://www.supercars.net/PitLane?viewThread=y&gID=0&fID=2&tID=111663
http://www.starwraith.com/forum/viewthread.php?tid=8405
http://chinapic.people.com.cn/forum.php?mod=viewthread&tid=4966741
http://www.essentialdayspa.com/forum/viewthread.php?tid=11902
Как добыть больше доменов и правильного ли они вида? Ну и вообще я все правильно делаю?
 
Последнее редактирование модератором:
Щелкни на иконку с инструментом и добавь опцию Parse all results - автоматически размножит запросы и ты получишь гораздо больше результатов
 
+советую подбирать признаки без операторов inurl и подобных - т.к. это значительно замедляет парсинг
 
Спасибо за ответы) еще вот интересует такой вопрос, получилось много ссылок у меня примерно 800 тысяч уникальных теперь незнаю как привести их к виду,что бы можно было добавить в базу хрумера, вот такого вида получил ссылки:
Код:
http://www.marketday.com/
http://www.pizzamaking.com/dough_calculator.html
http://www.dailygrail.com/stream
http://www.codesynthesis.com/projects/xsd/documentation/cxx/tree/manual/
http://www.vonage.com/tos
http://www.likwidgames.com/topUsers.php
http://www.ukra.org.uk/records/h-class
http://www.dailygazette.com/new_subscription/
http://www.rrsport.co.uk/forum/post353798.html
http://www.uotd.org/show_country.py?country=43&offset=50
http://friendsfactory.info/profile.php?user=ady007
http://www.czestochowa.us/content/view/14/28/
http://www.sketch-a-day.com/
https://www.myadt.com/faq.jsp
http://dailyoftheday.com/
http://www.overtherainbowtoeurope.eu/?q=node/116
http://help.madmoo.com/en_EN/lady-popular.html
https://spogo.co.uk/community/stories
http://www.i-ready.com/
http://www.adylevy.com/index.php/category/general/
http://olfschool.net/
http://www.seashepherd.org/
http://ohhappyday.com/
http://lady.rdsor.ro/~kotro/mopho/
http://www.thebookstoreplus.com/book/9789139585220
http://spacial.com/sam-broadcaster
http://www.cobiansoft.se/forum/yaf_postst1167_Backing-up-just-the-new-files-each-day.aspx
http://www.gnat.com/
http://www.planetwot.com/playerStats/?name=Jyrmo
http://www.rosegardenmusic.com/
http://addyosmani.github.io/backbone-fundamentals/
http://www.jeffblankenburg.com/2012/11/30/31-days-of-windows-8-day-30-store/
http://www.ourladypeace.com/
http://thekrazycouponlady.com/
 
Последнее редактирование модератором:
хрумер именно такие ссылки и принимает насколько мне известно :)
 
... как привести их к виду,что бы можно было добавить в базу хрумера, вот такого вида получил ссылки
1) Меню->Инструменты->Постобработка ссылок, дальше выбираем базу которую надо привести в порядок.
2) Меню - Удалить повторные ссылки (Удаляет дубли URL есть таковы присутсвуют)
3) Перед запуском базу надо перемешать, чтоб нагрузка на проц шла равномерно, есть хорошая прога KeyWordKeeper 4.2.4 в ней много полезняшек для работы с большими текстовыми файлами.Качнуть можно тут _http://newox.ru/kwk.php
Многие пишут что она с вирусом, так вот никакого там вируса нету, я ее лично отправлял в антивирусную лабораторию, даже не в одну и ответ пришел - что все чисто.
 
Если можно покажите пожалуйста картинки с настройками.
 
Т.е. такая конструкция излишняя? (Только тут не хватает чекбокса парсить все результаты)

5dd95cb097760b358b0427b972d7266a.jpg
 
Т.е. такая конструкция излишняя? (Только тут не хватает чекбокса парсить все результаты)
она не только излишняя, она не верная - нет необходимости выделять домен, т.к. часто движок который ты парсишь по признакам находится в какой либо папке
 
а подскажите плиз, формат запроса настройку оставляем без изменений или приписываем $query {num:1:значение} ?)
 
Назад
Верх