Forum PHP.pl > [PHP]Optymalizacja skryptu

Pomoc - Szukaj - Użytkownicy - Kalendarz

Pełna wersja: [PHP]Optymalizacja skryptu

Cromwell

15.12.2009, 14:33:04

Mam skrypt, którego zadaniem jest przerobienie pliku txt oraz podział danych w nim zawartych na dwie części - słowa z polskimi znakami, oraz resztę. Skrypt wygląda tak:

[PHP] pobierz, plaintext 
<?
 
include 'funkcje.php';
 
echo '<form action="dodaj.php" method="POST">
      <input type="hidden" name="add" value="dodaj" />
      <input type="submit" value="dodaj" />
      </form>';
 
 
$add = $_POST['add'];
 
if ($add == 'dodaj')
{
 
$plik = file_get_contents('aa.txt');
$separator = "\n";
 
$polskie = array();
$inne = array();
 
conn(); //funkcja łączenia z bazą
 
foreach(split($separator,$plik) as $linia) 
       {
        if(preg_match('/[ąćęłńóśźż]/ui', $linia)) //sprawdzenie, czy w słowie jest polski znak
          {
           $polskie[] = $linia;
           $query = "INSERT INTO polskie SET slowo = '$linia';";
           @mysql_query($query);
          }
        else
          {
           $inne[] = $linia;
           $query = "INSERT INTO inne SET slowo = '$linia';";
           @mysql_query($query);
          }
        }
 
//poniższa część służyła do zapisu danych do pliku, jednak na razie chcę je zapisać w bazie danych.
/*
sort($polskie);
sort($inne);
$pol = implode("\n",$polskie);
$inn = implode("\n",$inne);
 
file_put_contents('polskie.txt',$pol);
file_put_contents('inne.txt',$inn);
*/
}
 
?>
[PHP] pobierz, plaintext

Skrypt działa, radzi sobie z małymi plikami, jednak problem jest z większymi.
Korzystając z file_get_contents poradził sobie z plikiem ponad 1mb (2mb już nie chwycił).
Gdy korzystałem wcześniej z fopen, fread itd, nawet 1mb był dla niego za duży.

Początkowo wyskakiwała informacja, że czas wykonywania skryptu jest za długi, jednak po dodaniu linii

[PHP] pobierz, plaintext 
conn(); //funkcja łączenia z bazą
set_time_limit(300);
foreach(split($separator,$plik) as $linia) 
[PHP] pobierz, plaintext

skrypt działa dłużej, ale ostatecznie wysypuje się po kilkunastu minutach przeglądarka.

Najwyraźniej skrypt nie radzi sobie z pierwszą częścią - odczytem pliku i wystartowaniem z pętlą, gdyż do bazy nie są dodawane żadne rekordy.

Zależy mi, aby skrypt radził sobie przynajmniej z plikami 5mb, a najlepiej by było, gdyby ugryzł taki, co waży 40mb.
Fajnie by też było, gdyby nie trzeba było całkiem przerabiać skryptu, aby czytał częściami, czy coś w tym stylu.

W razie czego mogę zmienić rozszerzenie/format pliku z txt na coś innego, mam dostęp do pliku php.ini na serwerze.

tvister

15.12.2009, 15:20:52

Wczytuj plik partiami oraz po zakończeniu cyklu uzupełnij bd. W file_get_contents określ offset i vista wio.

Cromwell

16.12.2009, 12:14:04

Z tego co doczytałem w manualu, w file_get_contents mogę ustawić offset od danego znaku do danego.
Niby to jest dobre, ale boję się, że u mnie nie zadziała. Dane w pliku txt są zapisane w ten sposób:

Cytat

pies
kot
abecadło
jakiś
ogórek
szkoła
delfin
marker

Mają różną długość, różne litery. Wspólny jest jedynie znak \n.
Jednak nie wiem, jak podzielić to wczytywanie pliku, aby nie tyle wczytywał część powiedzmy do 500 znaków, a np. określoną ilość słów, czy nawet około 500 znaków, tylko niech fragment kończy się \n.

Ma ktoś pomysł?

Pilsener

16.12.2009, 12:19:58

http://www.forumweb.pl/viewtopic.php?t=39103

Poczytaj o porcjowaniu danych z pliku:

[PHP] pobierz, plaintext 
   $uchwyt = fopen($pliczek,'r');
   while(!feof($uchwyt)){
      $linia = rtrim(fgets($uchwyt));
      $licznik++;
      if($licznik>$od && $licznik<=$do){
         $tabliczka[] = $linia;
      }
   }
   fclose($uchwyt);
[PHP] pobierz, plaintext

- wczyta do "tabliczka" linie pliku od-do, na początek liczysz linie w pliku, potem ustalasz po ile linii ma być wczytanych za jednym razem - wszystko masz opisane w tutorialu.

Cromwell

16.12.2009, 14:38:59

Ok, wprowadziłem trochę zmian, jednak nie działa do końca..
Część w środku IF (wykonywanego jeśli kliknie się na button 'dodaj') wygląda tak:

[PHP] pobierz, plaintext 
$plik = 'slowa.txt';
 
$uchwyt = fopen($plik,'r');
 
while(!feof($uchwyt))
     {
      $linia = fgets($uchwyt);
      $licznik++;
      if($licznik>0 && $licznik<=2738870) //od zera do liczby rekordów w pliku
        {
         if(preg_match('/[ąćęłńóśźż]/ui', $linia))
           {
            $plik = fopen("polskie.txt", "a");
            fwrite($plik, $linia);
            fclose($plik);
           }
         else
           {
            $plik2 = fopen("inne.txt", "a");
            fwrite($plik2, $linia);
            fclose($plik2);
           }
        }
     }
 
fclose($uchwyt);
[PHP] pobierz, plaintext

Skrypt fajnie dzieli słowa, zapisuje do plików, jednak w pewnym momencie zaczyna się miotać.
Natrafia na 22 słowa z polskimi znakami, w pliku inne.txt ich nie ma, jednak zamiast następnego słowa za tymi słowami z polskimi znakami, jest pierwsze słowo z pliku (mam nadzieję, że dość zrozumiale tłumaczę).
Co z tym zrobić?

Pilsener

17.12.2009, 09:51:35

Hej.
1. Po co za każdym razem w pętli otwierasz i zamykasz plik? Fopen powinny być przed pętlą while a fclose za, w pętli tylko fwrite.
2. Sprawdź na kilku pierwszych rekordach jak działa preg_match, może nie do końca tak, jak tego oczekujesz?

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.