Forum PHP.pl > Stream to files - jakby to przyśpieszyć?

Pomoc - Szukaj - Użytkownicy - Kalendarz

Pełna wersja: Stream to files - jakby to przyśpieszyć?

Forti

7.08.2015, 09:54:48

Cześć!

Przejde do rzeczy. Mamy tablice, w ten sposób:

[PHP] pobierz, plaintext 
$data = [
    0 => [ // 70 tyś. rekordów
        0 => [] // tutaj średnio 5-6 rekordów,
        // i tak dalej
    ],
    1 => [],
    2 => [],
   //  i tak dalej.
];
[PHP] pobierz, plaintext

Ogólnie takich małych tablic po 5-6 rekordów jest ok. 8mln. Podzielone są po 70 tyś. Teraz te 70 tyś. zapisuje w postaci .csv:

[PHP] pobierz, plaintext 
        foreach ($this->result as $fileNumber => $data) {
            $stream = fopen('php://memory', 'w');
 
            foreach ($data as $line) {
                fputcsv($stream, $line, $this->config['delimiter']);
            }
            fseek($stream, 0);
            $content = stream_get_contents($stream);
            $content = str_replace('"', '', $content); // potrzeba usuwania ", w żadnym innym miejscu tego zrobić nie mogę, a iterować po całej tablicy i robić na mniejszych stringach to bezsensu moim zdaniem... jak myślicie?
 
            $now = new \DateTime('now');
            $fileName = $fileName . $now->format('Y-m-d-h-i-s') . "_{$fileNumber}_" . '.csv';
 
            $file = fopen(__DIR__ . '/../../parsed/' . $fileName, "w");
            fputs($file, $content);
            fclose($file);
        }
[PHP] pobierz, plaintext

Teraz sedno sprawy:

Przy 100k rekordów trwa to dosłownie kilka sekund. Przy 1mln trwa to już średnio 3 minuty (ostatnia próba: 223 sekundy) (licze z pomocą microtime(true)). Nawet boje się włączyć na 8mln rekordów...
Jakiś pomysł jak to przyśpieszyć? Cel: zapis do pliku .csv.

pyro

7.08.2015, 10:05:22

Jeśli chodzi o ten myk z cudzysłowem, to nie szkodzi. Miałem parę razy podobny problem i niestety mniej więcej tak się go rozwiązuje, więc jest to OK.

Jeśli chodzi o sam czas, to najprawdopodobniej to przez to, że ładujesz wszystkie dane do pamięci, przez co maszyna jest tak obciążona, że wszystko działa dużo wolniej.

Jeśli pobierasz dane z bazy, to rób to jakimś data provider iteratorem i pobieraj w segmentach.

Forti

7.08.2015, 10:08:13

Nie stety, ale dane są najpierw pobierane w kilku plików (każdy po 1mln), parsowane odpowiednio i zapisywane. Cały proces od kilku dni optymalizuje jak tylko się da.

CuteOne

7.08.2015, 10:08:42

Nie bardzo rozumiem po co ci ten stream, przecież niżej otwierasz plik i wrzucasz do niego dane z bazy. Jak dla mnie podwójna robota.. coś w ten deseń

[PHP] pobierz, plaintext 
$now = new \DateTime;
foreach ($this->result as $fileNumber => $data) {
            $fileName = $fileName . $now->format('Y-m-d-h-i-s') . "_{$fileNumber}_" . '.csv';
            $stream =  fopen(__DIR__ . '/../../parsed/' . $fileName, "w");
 
            fputcsv($stream, $data, $this->config['delimiter']);
            fclose($file);
        }
[PHP] pobierz, plaintext

@edit: upitoliłem foreacha, trzeba go przywrócić

pyro

7.08.2015, 10:10:39

Cytat(Forti @ 7.08.2015, 11:08:13 )

Nie stety, ale dane są najpierw pobierane w kilku plików (każdy po 1mln), parsowane odpowiednio i zapisywane. Cały proces od kilku dni optymalizuje jak tylko się da.

No to musisz bardziej doprecyzować co to znaczy "odpowiednio parsowane i zapisywane".

Cytat(CuteOne @ 7.08.2015, 11:08:42 )

Nie bardzo rozumiem po co ci ten stream, przecież niżej otwierasz plik i wrzucasz do niego dane z bazy. Jak dla mnie podwójna robota.. coś w ten deseń

[PHP] pobierz, plaintext 
$now = new \DateTime;
foreach ($this->result as $fileNumber => $data) {
            $fileName = $fileName . $now->format('Y-m-d-h-i-s') . "_{$fileNumber}_" . '.csv';
            $stream =  fopen(__DIR__ . '/../../parsed/' . $fileName, "w");
 
            fputcsv($stream, $data, $this->config['delimiter']);
            fclose($file);
        }
[PHP] pobierz, plaintext

Wczytaj się jeszcze raz w to co ten kod robi.

Forti

7.08.2015, 10:14:38

Z tym parsowaniem to nie istotne, po prostu pobieram zawartość z plików (zmienne), obrabiam i dopasowuje w odpowiednie zmienne. Słowa kluczowe itp.
Ogólnie całość i tak ląduje w takiej tablicy i nie bardzo mam jak inaczej to zrobić.

Jeżeli nie ma innego sposobu a tak dużą tablice zapisać w .csv w szybszy sposób, to będzie musiało to tak zostać..

pyro

7.08.2015, 10:16:40

Cytat(Forti @ 7.08.2015, 11:14:38 )

londuje

Cytat(Forti @ 7.08.2015, 11:14:38 )

Z tym parsowaniem to nie istotne, po prostu pobieram zawartość z plików (zmienne), obrabiam i dopasowuje w odpowiednie zmienne. Słowa kluczowe itp.
Ogólnie całość i tak londuje w takiej tablicy i nie bardzo mam jak inaczej to zrobić.

Jeżeli nie ma innego sposobu a tak dużą tablice zapisać w .csv w szybszy sposób, to będzie musiało to tak zostać..

Czyli jednak źle robisz. Pobieraj z tych plików w mniejszych segmentach i obrabiaj tak samo.

Forti

7.08.2015, 10:20:56

*ląduje lol skąd to sie tam wzięło

Właśnie tak zrobiłem, zamiast przekazywać wszystkie pliki - pobierać wawartość, mergować ją, obrabiać i zapisywać to pobieram liste plików i z każdego osobna. W teorii powinienem zyskać średnio 2-3 minuty na każde 1mln rekordów. Zobaczymy jak wyjdzie.

pyro

7.08.2015, 10:31:05

Raczej chodziło mi o to, żebyś mniejszymi segmentami pobierał i parsował, tj. pamięć jest zapchana tylko tyle, ile ma dany segment, a nie mniejszymi segmentami pobierać, żeby je wszystkie najpierw wrzucić i tak do pamięci, a dopiero później operować

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.