Przejdź do treści głównej

Kreator wyników

Result Builders (Konstruktor wyników) - pozwala na przekształcanie wyników z każdego scrapera przed ich formatowaniem i zapisaniem na dysku

Możliwości

  • Podział wyniku na części za pomocą wyrażenia regularnego lub dowolnego separatora
  • Zamiana podciągu w wyniku lub zamiana wyrażeniem regularnym
  • Wyodrębnianie domeny lub domeny głównej z linku
  • Konwersja wyniku na wielkie\małe litery
  • Usuwanie tagów HTML (<b>text</b> -> text)
  • Konwersja encji HTML na ich odpowiedniki Unicode (&copy; -> ©)
  • Pobieranie danych za pomocą zapytań XPath
Konstruktor wyników

Przykłady

Scrapowanie domen

Zapisywanie tylko domen podczas scrapowania linków z wyszukiwarek:

Scrapowanie domen

Jako źródło wykorzystywane są elementy link z tablicy serp z pierwszego scrapera, do każdego elementu zostanie zastosowana funkcja wyodrębniania domeny głównej z linku, nowy wynik zostanie zapisany pod tą samą nazwą (element link w tablicy serp) - dlatego zmiana formatu wyniku nie jest wymagana

Scrapowanie snippetów z oczyszczaniem

Zapisywanie snippetów z wyszukiwarek z oczyszczaniem z tagów HTML i konwersją encji HTML

Domyślnie anchory i snippety są scrapowane ze wszystkimi zagnieżdżonymi tagami, co pozwala zachować takie samo formatowanie jak podczas przeglądania wyników w wyszukiwarkach. Jeśli potrzebny jest tylko czysty tekst, można skorzystać z możliwości Konstruktora wyników:

Scrapowanie snippetów z oczyszczaniem

W tym przykładzie do snippetów zastosowano kolejno dwa Konstruktory wyników - usuwanie tagów HTML oraz konwersję encji HTML

Scrapowanie za pomocą XPath

Scrapowanie linków z wyników wyszukiwania za pomocą XPath:

Scrapowanie za pomocą XPath

W tym przykładzie pokazano scrapowanie linków z wyszukiwarki Google. Użyto zapytania XPath:

//*[@id="rso"]/div[3]/div/div[1]/a/@href