Forum PHP.pl > [MySQL][PHP] Usuwanie zduplikowanych wpisow

Pomoc - Szukaj - Użytkownicy - Kalendarz

Pełna wersja: [MySQL][PHP] Usuwanie zduplikowanych wpisow

Agape

25.08.2016, 14:53:29

Mam w tabeli produkty z ich nazwami, do wgrywanych produktow robie dodatkowa kolumne `nazwa_unikalna` gdzie zapisuje tytul obciety do max 50 znakow. Nastepnie mam cos takiego w uproszczeniu:

[PHP] pobierz, plaintext 
		$produkty_unikalne = array();
		foreach ($produkty as $produkty_){
			if(in_array($produkty_['nazwa_unikalna'], $produkty_unikalne)){
				//jezeli produkt o takiej nazwie juz wystepowal, usuwaj powielony
			}else{
				//zbieraj unikalne do porownania
				$produkty_unikalne[] = $produkty_['nazwa_unikalna'];
			}			
		}
[PHP] pobierz, plaintext

czyli jezeli napotka drugi i kolejny produkt ktory ma taka sama nazwe unikalna, to usuwa go zeby nie bylo takich samych poduktow w bazie. Problem w tym ze baza ma pareset tysiecy rekordow i funkcja ta wykonuje sie pare minut, czym wiecej produktow przerobi tym bardziej zwalnia. Potrzebuje ja zastapic poleceniem sql, zeby zostawialo pierwszy produkt z taka nazwa a usuwalo nastepne, niestety nie mam pojecia jak to zrobic :/

7 minut dokladnie wykonuje sie to zapytanie, jakbym zszedl do 2 byloby idealnie ...

kapslokk

25.08.2016, 14:57:01

http://stackoverflow.com/questions/3311903...e-rows-in-mysql

Agape

25.08.2016, 15:00:26

nie moge dac unique index na ta kolumne bo przestanie mi to dzialac tak jak potrzebuje i jak reszta rzeczy jest skonstrulowana, wlasnie chodzi o to ze musze to zrobic zapytaniem, tak baza jest skonstrulowana

trueblue

25.08.2016, 15:10:25

7 minut wykonuje się zapytanie czy ten kod?
Ten kod nie powinien tyle się wykonywać. Zresztą zapytanie (nie wiem jak wygląda) również nie.

Zainteresuj się wyzwalaczem before insert.

Agape

25.08.2016, 15:18:59

ten kod, baza ma 130 MB i zawiera 130 000 rekordow wiec pewnie dla tego, kazdy produkt sie pobiera pojedynczo i usuwa pojedynczo (jezeli jest zduplikowany) wiec to troche zapytan jest.

trueblue

25.08.2016, 15:26:03

No, to już jakieś rozwiązanie masz - usuwać jednym zapytaniem. Zebrać id i wykonać jeden delete.

Agape

25.08.2016, 15:34:23

Wlasnie nie chodzi o to ze dlugo sie usuwa, tylko dlugo mieli. Pobieram cala baze (ale tylko id, nazwe i nazwa_unikalna) jednym zapytaniem i czas ktory napisalem jest dla bazy w ktorej nie ma duplikatow, samo sprawdzanie calej bazy tyle zajmuje, mielenie tablicy, nie wiem czy in_array tak dlugo zajmuje czy co ... wiec w php jest jakis problem :/

mysle ze czym wiecej ma wartosci w tablicy, tym dluzej musi je porownywac i dla tego tym tym bardziej zwalnia z czasem wykonywania :/

zrobilem kolumne `id` auto increment i zapytanie:

[PHP] pobierz, plaintext 
DELETE b1 FROM `baza` b1, `baza` b2 WHERE b1.nazwa_unikalna = b2.nazwa_unikalna AND b1.id > b2.id;
[PHP] pobierz, plaintext

i po 11 min zabilem proces, w phpmyadmin nawet sie nie dalo wejsc :/
moze dodac index do tej kolumny ? moze cos innego niz in_array ? mecze sie z tym dlugi czas i nie moge dojsc jak to przyspieszyc :/

trueblue

25.08.2016, 15:44:40

$produkty_unikalne=array_unique(array_column($produkty,'nazwa_unikalna')));

viking

25.08.2016, 15:44:55

A to dlaczego nie kasujesz ich od razu na bazie tylko mielisz w PHP?
DELETE .... WHERE ... (SELECT...)

Agape

25.08.2016, 15:51:44

Panowie bardzo dziekuje wam za zainteresowanie tematem, znalazlem problem. Powyzszy skrypt wykonywal sie 7 min (ten na samej gorze). Zmienilem z in_array ktore jest bardzo wolne na isset ktore jest mega szybkie, ponizszy skrypt ktory robi to samo, a tylko jedna funkcja zostala zmieniona wykonuje sie w 1 sekunde !

[PHP] pobierz, plaintext 
		$produkty_unikalne = array();
		foreach ($produkty as $produkty_){
			if(isset($produkty_unikalne[$produkty_['nazwa_unikalna']])){
				//jezeli produkt o takiej nazwie juz wystepowal, usuwaj powielony
			}else{
				//zbieraj unikalne do porownania
				$produkty_unikalne[ $produkty_['nazwa_unikalna'] ] = 'x';
			}			
		}
[PHP] pobierz, plaintext

chodzi na pewno o to ze in_array przeszukuje cala tablice (ponad 100 tys rekordow) a isset probuje odczytac pojedyncza wartosc, jesli jest git, jesli nie to juz nie szuka w tysiacach rekordow tylko zwraca ze nie ma. Nie wiedzialem ze jest az taka roznica

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.