Forum PHP.pl > [PHP][funkcja] substr_safe, koniec z koszmarem niedomkniętych tagów

Pomoc - Szukaj - Użytkownicy - Kalendarz

Pełna wersja: [PHP][funkcja] substr_safe, koniec z koszmarem niedomkniętych tagów

Forum PHP.pl > Forum > Gotowe rozwiązania > Algorytmy, klasy, funkcje

Louner

11.06.2009, 22:44:56

Funkcja służy do zapobiegania pozostawaniu otwartych tagów HTML i innych śmiesznych rzeczy. Przykładowo, tekst wejściowy:

Kod

test1test2test3</div><i

po przejściu przez funkcję substr_safe, daje:

Kod

test1test2test3

Funkcję mozna też stosować tylko z jednym parametrem; wtedy tylko nieco uporządkuje kod bez żadnego przycinania.

Miałem wcześniej kilka problemów, które wpływały na działanie funkcji m.in. z interpretacją błędnego HTML'u, niedomkniętymi tagami, tagami zamykającymi bez tagów otwierających itp, prosiłem o pomoc na forum ale wszystko wyszło na prostą i wklejam działający kod.

Pozdrawiam i życzę miłego użytkowania

parametry:
$str - string, tekst wejściowy
$start,$count - int, tak jak drugi i trzeci parametr do zwykłego substr
$cut - bool, określa, czy ucinać wyrazy

na wyjściu funkcja daje odpowiednio sformatowany tekst wyjściowy

[PHP] pobierz, plaintext 
<?php
/* substr_safe by Louner ( rozjazd@gmail.com ) */
function substr_safe($str,$start=0,$count=0,$cut = false) {
    $whitespace = array(
        " ",
        "\n",
        "r",
        "\t"
    );
 
    $str = trim($str);
    if( $count == 0 ) {
        $count = strlen($str) - $start;
    }
    if( $cut == false ) {
        $cut_front = false;
        $cut_back = false;
        $stop = $start+$count-1;
        if( isset($str[$start-1]) && !in_array($str[$start-1],$whitespace) && !in_array($str[$start],$whitespace) && $start != 0 ) {
            $cut_front = true;
        }
        if( isset($str[$stop+1]) && !in_array($str[$stop+1],$whitespace) && !in_array($str[$stop],$whitespace) ) {
            $cut_back = true;
        }
    }
    $str = substr($str,$start,$count);
    if( $cut == false && ( $cut_back == true || $cut_front == true ) ) {
        $min = strlen($str);
        $max = 0;
        foreach( $whitespace as $c ) {
            if( ( $c_min = strpos($str,$c) ) !== false ) {
                $c_max = strrpos($str,$c);
 
                if( $c_min < $min ) {
                    $min = $c_min;
                }
                if( $c_max > $max ) {
                    $max = $c_max;
                }
            } else {
                continue;
            }
        }
        if( $min < $max ) {
            if( $cut_back == true ) {
                $str = substr($str,0,$max);
            }
            if( $cut_front == true ) {
                $str = substr($str,$min);
            }
        }
    }
 
    $str = trim($str);
    $str = preg_replace("#<([^<>s]+)$#s","$2",$str); // cut incorrect html
 
    $stack = array();
 
    if( preg_match_all('#<([^><]+)>#s',$str,$matches) ) {
        $matches_full = $matches[0];
        $matches = $matches[1];
        foreach( $matches as $key => $tag ) {
            if( $s = strpos($tag,' ') ) {
                $tag = substr($tag,0,$s);
            } else {
                $s = strlen($tag);
            }
            $tag = substr($tag,0,$s);
            if( substr($tag,0,1) == '/' ) { // closing
                $tag = substr($tag,1);
                if( end($stack) == $tag ) {
                    array_pop($stack);
                } else {
                    $str = preg_replace("#(".preg_quote($matches_full[$key],"#").")#s","",$str,1);
                }
            } else { // opening
                array_push($stack,$tag);
            }
        }
    }
    $stack = array_reverse($stack);
    foreach( $stack as $tag ) {
        $str .= '</'.$tag.'>';
    }
    return $str;
}
?>
[PHP] pobierz, plaintext

marcio

11.06.2009, 23:11:33

Jesli nie masz miec w bbcode'zie zagniezdzonych kodow bbcode to poprostu sprawdzaj tylko pierwsze <> i ostatnie <> i czy w ostatniej parze masz "/".

A jak nie to dodawaj do licznika 1 za kazdym razem jak znadziej <> i do drugiego jak znajdziesz </> jesli licznik sie zgadza to okej jak nie to szukasz ktore nie sa domkniete i dodajesz "/".

Louner

12.06.2009, 10:59:34

Nie do końca zrozumiałem, ale mam wrażenie, że robię to samo, tylko na stosie i mam lekki problem z błędnymi tagami

marcio

12.06.2009, 22:24:53

Elo.

Rozpisujac to sobie wychodzi takie cos:

Pobierasz html potem za pomoca preg_match_all() szukasz 2 rzeczy.
1.)Tag <.*>
2.)Tag <.*/>

Do 2 roznych zmiennych powiedzmy ze masz taki wpis:

Kod

I w zmiennych:

$tag_open -> masz <div> i 
$tag_close -> masz </div>

I teraz jesli dasz jakis warunek ktory sprawdzi czy tag o index'ie [0] w tablicy $tag_close i $tag_open jest taki sam czyli czy element jest taki sam jak masz to tag zamykajacy ma byc a nie np: i czy tag z tab $tag_close jest dobrze napisany czyli:

Cytat

</znacznik_rowny_temu_z_$tab_open>

Jesli tak to good jesli nie to domykasz.

Tylko musialbys dodac array_reverse() na jedna z tablic by indexy sie zgadzaly bo jak nie dasz to to by wygladalo tak:

[PHP] pobierz, plaintext 
<?php
$tag_open[0] = '<div>';
$tag_open[1] = '<p>';
$tag_close[0] = '</p>';
$tag_close[1] = '</div>';
?>
[PHP] pobierz, plaintext

Czyli indexu sa na odwort dasz array_reverse() i sie juz zgadzaja.

Sorki troche zamotalem ale taka mala idea.

Louner

13.06.2009, 12:08:47

Dzięki, ale nie chodzi mi o sam sposób sprawdzania poprawnej kolejności, tylko o te skrajne przypadki, które wcześniej poruszyłem.

Kolejność tagów sprawdzam tak, jeśli o to chodzi:

wyszukuję wszystkie elementy tekstu wejściowego, które pasują do wyrażenia '<[^\>]+>', czyli teoretycznie kazdy tag
wsystkie tagi sa zapisywane do tablicy $matches ( np $matches[1] = '', $matches[2] = '', itd )
potem jade po każdej komórce tablicy $matches i jeżeli trafiam na tag otwierający, odkładam go na stos ( $stack, np: $stack[1] = '', $stack[2] = '' )
jeżeli trafiam na tag zamykający, sprawdzam co jest na szczycie stosu, przykładowo: trafiam na '', widzę, że na szczycie stosu ( $stack[2] ) jest już , więc zdejmuję ze stosu i terazm mam na nim tylko
potem przykładowo wejście się kończy, a na stosie zostało mi , więc doklejam '' na koniec tekstu wejściowego

Samo sprawdzanie poprawnej kolejności tagów jest proste, mniejsza o to. Bardziej mi zależy na jakimś sensownym sposobie poradzenia sobie z błędnym htmlem, jak i z 'toksycznymi' znakami, jak '<', czy '>', które są powstawiane w dziwnych miejscach. Przykładowo:

'pięć < siedem ' będzie wyłapane przez '<[^\>]+>' jako dwa tagi otwierające: "" i "< siedem ". Nie mam tez pomysłu na to, co z tym zrobić

edit:
już nie ważne

graczu

22.12.2009, 20:06:36

Fajna funkcja, tylko gdy w treści się pojawia " " bądź poprawnie " " też jest zakańczany. Tagi które się kończą <tag "/>" powinny być omijane?.

Kod

$tresc = " dupa biskupa ";

echo htmlspecialchars(substr_safe($tresc));

>>>

 dupa biskupa

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.