Forum PHP.pl > [PHP][Regex]

Pomoc - Szukaj - Użytkownicy - Kalendarz

maviozo

6.11.2011, 23:17:09

Wyrażenia regularne niestety chyba nigdy nie będą moją specjalnością i wykładam sie przy prostych czynnościach. niby to rozumiem, ale nie wychodzi i już. Jest proste wyrażenie:

[PHP] pobierz, plaintext 
`((?:https?|ftp)://\S+[[:alnum:]]/?)`si
[PHP] pobierz, plaintext

wykorzystane w preg_replace. Chcę dodać warunek, że jeżeli PRZED dopasowywanym wyrażeniem jest cudzysłów, to dopasowanie ma być wykluczone. Znaczek wykluczenia to ^, ale nijak nie wiem, jak go tu zastosować. Proszę też o ewentualne słówko na temat ((?: a dokładnie znaku zapytania i dwukropka - co w tym momencie dają?

croc

6.11.2011, 23:25:11

(?: ... ) daje to, że obejmuje grupuje wyrażenie podobnie jak sam nawias, ale nie zapisuje go do wyniku. Bardzo przydatne.

Co do Twojego wyrażenia, to czy ma to być po prostu każdy URL bez cudzysłowu na początku? Bo Twoje wyrażenie nie jest najlepsze do szukania URL.

maviozo

6.11.2011, 23:40:40

Widocznie na zrozumienie tego co napisałeś, jestem za tępy, ale wyjaśnienie nic mi nie dało. Do jakiego wyniku nie zapisuje? Wstyd, ale jest to naprawdę jedna z niewielu rzeczy, których nie mogę pojąć. Irytuje mnie to, bo wielokrotnie potrzebuję tych nieszczęsnych wyrażeń i zawsze ciężko z tym walczę.

Tak, chodzi o pomijanie linków, jeżeli przed nimi jest cudzysłów.

croc

6.11.2011, 23:51:53

Najlepiej używać wzorców do URL wziętych z internetu. Ten jest całkiem niezły (nie przeraź się):

Kod

^(?#Protocol)(?:(?:ht|f)tp(?:s?)\:\/\/|~\/|\/)?(?#Username:Password)(?:\w+:\w+@)?(?#Subdomains)(?:(?:[-\w]+\.)+(?#TopLevel Domains)(?:com|org|net|gov|mil|biz|info|mobi|name|aero|jobs|museum|travel|[a-z]{2}))(?#Port)(?::[\d]{1,5})?(?#Directories)(?:(?:(?:\/(?:[-\w~!$+|.,=]|%[a-f\d]{2})+)+|\/)+|\?|#)?(?#Query)(?:(?:\?(?:[-\w~!$+|.,*:]|%[a-f\d{2}])+=?(?:[-\w~!$+|.,*:=]|%[a-f\d]{2})*)(?:&(?:[-\w~!$+|.,*:]|%[a-f\d{2}])+=?(?:[-\w~!$+|.,*:=]|%[a-f\d]{2})*)*)*(?#Anchor)(?:#(?:[-\w~!$+|.,*:=]|%[a-f\d]{2})*)?$

Czyli dla Twojego przypadku wyglądałoby to tak:

Kod

(?:^|[^"])(?#Protocol)(?:(?:ht|f)tp(?:s?)\:\/\/|~\/|\/)?(?#Username:Password)(?:\w+:\w+@)?(?#Subdomains)(?:(?:[-\w]+\.)+(?#TopLevel Domains)(?:com|org|net|gov|mil|biz|info|mobi|name|aero|jobs|museum|travel|[a-z]{2}))(?#Port)(?::[\d]{1,5})?(?#Directories)(?:(?:(?:\/(?:[-\w~!$+|.,=]|%[a-f\d]{2})+)+|\/)+|\?|#)?(?#Query)(?:(?:\?(?:[-\w~!$+|.,*:]|%[a-f\d{2}])+=?(?:[-\w~!$+|.,*:=]|%[a-f\d]{2})*)(?:&(?:[-\w~!$+|.,*:]|%[a-f\d{2}])+=?(?:[-\w~!$+|.,*:=]|%[a-f\d]{2})*)*)*(?#Anchor)(?:#(?:[-\w~!$+|.,*:=]|%[a-f\d]{2})*)?

Powinien działać idealnie. Na początek wzorca dałem fragment, który przepuści takie linki, które są na samym początku łańcucha znaków lub mają przed sobą dowolny znak inny niż cudzysłów.

A co do (?: ... ) - wszystkie funkcje preg_XXX traktują w specjalny sposób fragmenty wzorców zapisane w nawiasie. preg_match do wyników swojego działania (zmiennej podanej jako 3-ci parametr) dodaje wszystko co znajdzie, a oprócz tego wszystkie fragmenty w nawiasach. Jak dasz (?: ... ) zamiast normalnego nawiasu, to zawartość tego nawiasu nie jest przechwytywana. Pobaw się i porównaj wyniki tych instrukcji:

[PHP] pobierz, plaintext 
preg_match('#Ala ma ([a-z]+)\.#', 'Ala ma kota.', $matches);
print_r($matches);
[PHP] pobierz, plaintext

oraz:

[PHP] pobierz, plaintext 
preg_match('#Ala ma (?:[a-z]+)\.#', 'Ala ma kota.', $matches);
print_r($matches);
[PHP] pobierz, plaintext

maviozo

7.11.2011, 00:08:21

Pokaźny post. Na pewno się z nim zaznajomię. Wytłumacz mi tylko w takim razie, czy dobrze rozumuję. Kod, który zresztą też uraczyłem się z googla, ma postać:

[PHP] pobierz, plaintext 
$txt=preg_replace(
  '`((?:https?|ftp)://\S+[[:alnum:]]/?)`si',
  '<a href="$1"  rel=nofollow>$1</a> ',
  $txt);
[PHP] pobierz, plaintext

Z tego co rozumiem, to w powyższym, http nie powinno być dopasowane i podstawiana pod $1 wartość powinna być bez http lub https lub ftp. Dlaczego jednak, po przepuszczeniu linka http://test.pl/test dostaję:

[HTML] pobierz, plaintext 
<a href="http://test.pl/test"  rel=nofollow>http://test.pl/test</a>
[HTML] pobierz, plaintext

Cytat

Na początek wzorca dałem fragment, który przepuści takie linki, które są na samym początku łańcucha znaków lub mają przed sobą dowolny znak inny niż cudzysłów.

Faktycznie tak to działa, ale co z linkami, które nie są na początku łańcucha?...

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.