Pomoc - Szukaj - Użytkownicy - Kalendarz
Pełna wersja: Wykrywanie produktów w sklepach
Forum PHP.pl > Forum > Gotowe rozwiązania
atom90
Witam

Mam pytanie, czy znacie jakiś sposób na rozróżnianie w sklepach podstron produktu od podstrony kategorii lub głównej itp.

Tworzę narzędzie do parsowania produktów w sklepach. Wszystko już działa, ale niestety potrafi parsować strony typu kategorie znajduje tam czasem ceny itp. Różne przypadki w zależności od sklepu.

Są podobne już narzędzia na rynku którę sobie z tym radzą, ale nie mam pojęcia na jakiej zasadzie tworzą te warunki. jakieś maski czy coś?

Dla przykładu
to jest strona kategorii:
https://www2.hm.com/pl_pl/ona/produkty/bluzy.html
https://www.cropp.com/pl/pl/dziewczyna/clot...kurtki-plaszcze
https://www.reserved.com/pl/pl/woman/accessories/shoes

To jest strona produktu:
https://www2.hm.com/pl_pl/productpage.0993762003.html
https://www.cropp.com/pl/pl/1326k-08x/kurtka-k-cr
https://www.reserved.com/pl/pl/1296l-50x/klapki-k-re

No i teraz jak można wykluczyć strony nie będące produktami, wiem że to nie będzie jedna zasada i może się nie uda odrazu wykluczyć wszystkich sklepów, ale jakiś przynajmniej odsetek smile.gif
Znacie podobne rozwiązania?
aras785
Cześć, nigdy nie zajmowałem się sprawdzanie czy dana strona jest kategorią ale mocno siedziałem w crawlowaniu produktów i tutaj sprawa jest bardzo prosta - praktycznie każda karta produktu ma nagłówki z informacją o cenie lub wysyła do googla eventy (datalayer).
W ten sposób ograłem sobie praktycznie każdy serwis który coś sprzedaje, a jeśli jest jakiś mocno customowy to zrobiłem sobie osobne klasy obsługujące daną stronę.

ps. poradziłeś sobie z serwisami który korzystają z recaptchy v3?
atom90
Używam curla, a jeśli blokuje mnie strona podczas parsowania to fajnie radzi sobie chromium.

W razie czego też myślałem o użyciu selenium, ale nie miałem póki co potrzeby. Masz jakiś przykład serwisu używający recaptche 3

Co do ceny na kartach produktu, to masz racje, ale niestety nie w każdym sklepie to przechodzi.

Wychodzi różne "kwiatki" Dlatego mam pare ścieżek pozyskiwania danych.

Parsowanie po xpathach, czasem niestety trzeba uzupelnic niektóre sklepy bo nie pobiera zawsze wszystkich danych

A potem to już kolejno w zależności na co trafi w pierwszej kolejnosci:
po Property
Potem po script'ach
kolejno item propsy

i już jakieś totalne wyjątki nagłówki itp

I problem jest taki, że znajduje ceny na podstronach typu kategoria. Owszem jest to mały odsetek, ale jednak sad.gif

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.
Invision Power Board © 2001-2024 Invision Power Services, Inc.