Только парсить код страницы и проверять есть ли слово форум в нем? Хотя может быть написано наш форум, форумы, вход на форум и т.д... Или же есть другие варианты?
Спасибо поддержке за помощь, выдали такой сниппет: Спойлер: картинка Спойлер: сниппет Код: eJyNVNty2jAQ/ZWOJjNpZxgIl0xbv9FM6WVoSBPyBDwIew0qQnIlmUCp/70rybZM GqZ9kbVHq70cHe+RGKo3+k6BBqNJNDuSzO1JROb51aD7zq79t27tuXXp1mu3Urde 2XUAr9xn4CBwe3/Qd0js9kvSIhlVGpRNNiOfp9/GUTRmYvNxbxSNjVTokUBKc25I 60jMIQOsRe5AKZYAHrIE7VxDpuT+gPaO8hxdUso1FOFGyrgBGwzbsbGiGWHCcMyk EaQiXmOqRav0m/pLCrbUxOsQ1ZHQO9vTb8fRoMGCZyrxzbr9+3/wgslkZpgUmI2R 4nzPqVRYXdlOqPCiaqvtHV5fXlhzPheXb5rhcsF+5nCOEPu1dHivkg5tFBMrUqGf uFxSTiKjcigWiyqSHrm8tpSs2y7lUx8+0B1MpX+QkF2P0Lql24riQS+oatD1iOOt nwbGPHv9putVU4b/IcAqRNvsbY00SZilnnLfgxVl6OvRMxYRIdEXt4qBHim5RciA C2DBQ9X/jFw4O/D43d8p1dkiGskYUWw9eX7CUIQU1T9xUkD8SKQYcj6GHfDg5uJ/ yBlP8A8apnjpS3nxZZfJXzGKur1mKpTak8IaglMix3JV9b4ByGo2bi2ylQrqAGXm Mi4OkwyEVWx47mEWoJMCTwg/BWMpUraalH9B5ZmLKU6sibiR24yDrVjknLfsRLgP 0hrqkmBrhAKfX75xKbCseuIQIyXXXx98qZliKN1rW+AWOWpmLUPGlPPH+3HzhASx oLE2Jos6nad42VZ5Zy5KGyOv5a8AacTMTh40TSxIbGQDK4lqwr6LRT0261F9fHF4 RscCH++HvvPetn3rixjyqN2U6RZ/ADRwAhE= Но он извлекает не все форумы, например на этих сайтах есть форумы но парсер их не видит: http://wcb.ru/ http://prihoz.ru/ https://tvoysad.ru/ В исходном коде этих сайтов такое: Код: <a href="http://dacha.wcb.ru/" class="fmenu">Дачный форум</a> <a href='http://forum.prihoz.ru/' title='Форум' class='leftMenu' target="_blank" style="height:30px;"><span>Форум</span><div>08</div></a <a title="фоум садоводов и цветоводов" target="_blank" href="https://forum.tvoysad.ru/">Форум садоводов</a> Может нужно сделать какую то регулярку?
Хочу найти ссылки на форум http://dacha.wcb.ru/ http://forum.prihoz.ru/ https://forum.tvoysad.ru/ Не ходить же по каждому сайту и смотреть как там прописана ссылка на форум, должно же быть какое то решение
Включите опцию Subdomains are internal, т.к. по-умолчанию она отключена и эти ссылки не попадают в $intlinks
Теперь лишнее собирает http://prntscr.com/k8s3ha Если например ввести такой запрос http://www.luckyforum.net/index.php То соберет это Спойлер: ссылки Код: http://www.luckyforum.net/forumdisplay.php?f=11 http://www.luckyforum.net/forumdisplay.php?f=14 http://www.luckyforum.net/forumdisplay.php?f=37 http://www.luckyforum.net/forumdisplay.php?f=31 http://www.luckyforum.net/forumdisplay.php?f=32 http://www.luckyforum.net/showthread.php?goto=newpost&t=71 http://www.luckyforum.net/showgroups.php http://www.luckyforum.net/online.php
Проверяйте по каких признаках эти результаты попадают в результат и исправляйте регулярку в фильтре так, что бы получать только то, что нужно.
Если вам эти ссылки не нужны в результате, то нужно выбирать тип Регулярка не совпадает. https://a-parser.com/wiki/filter/
А ссылки извлекаются только в теге a? Такое не хочет искать <li><a href="http://kalina-club.com.ua/forum/ " title="Официальный форум Лада Калина Клуба" alt="Официальный форум Лада Калина Клуба" ><b>ФОРУМ </b></a></li>
т.е. по сути вам надо загрузить страницу и найти конкретные признаки, потом её сохранить, не попавшие по условиям страницы не сохраняются?
Да, HTML::LinkExtractor сохраняет ссылки из тегов <a> Скиньте ссылку на страницу, где не забирает все ссылки