Forum PHP.pl > Update miliona rekordów

Pomoc - Szukaj - Użytkownicy - Kalendarz

infor946

3.03.2006, 12:59:24

Mam 2 tabele, w jednej jest lista tytułów i słowa kluczowe w jezyku ang.
Słowa kluczowe oddzielone są przecinkami i ich liczba dla poszczególnych rekordów jest zmienna. Liczba rekordów w tej tabeli to prawie 1 milion.

Druga tabelka zawiera listę wszystkich użytych keywordów angielskich i odpowiadające im polskie tłumaczenie. Około 40 tyś unikalnych rekordów.

Chciałbym teraz przetłumaczyć tzn zamienić wszystkie słowa angielskie w tabeli z milionem rekordów na polskie, ale nie wiem jak sie za to wogóle zabrać, czy da sie to potraktowaćjakimś skryptem, który przetłumaczyłby (pozamieniał) na raz, czy trzeba to robić etapami (ile) ?

chomiczek

3.03.2006, 13:11:26

sądze, ze dałoby sie chyba zrobić w jednym skrypcie (bez podziału na etapy).
Mysle, ze można by dodać jedno pole do tabeli (np. zrobione), w którym przechowywałbyś 0 i 1 (jedynka oznaczałaby np to, ze pole już zostało zmienione) w przypadku kiedy skrypt by sie przerwał, albo wystąpiłby jakis bład to update nie szedłby od początku przy następnym wywołaniu skryptu, ale wykonywany byłby dla tych pozycji , które nie miały update. Dodatkowo ustaw sobie na początku

[PHP] pobierz, plaintext 
<?php
set_time_limit(0);
?>
[PHP] pobierz, plaintext

dzięki czemu skrypt będzie się wykonywał do zakończenia.

Sugerowałbym tez przy testach zapytań, albo nie wykonywania ich tylko wyświetlenie, a także ustawienie limitu np. 10rekordów, zeby sprawdzac czy wszystko jest ok.. dla swietgo spokoju proponowalbym zrobic kopie bazy.

Na zakończenie wrzuc jakis listing.. moze komuś sie przyda

infor946

3.03.2006, 15:03:31

[PHP] pobierz, plaintext 
<?php
set_time_limit(0);
$link = mysql_pconnect("127.0.0.1", "root", "")
   or die ("Nie można się połączyć");
print ("Połączenie nawiązane<BR>");
mysql_select_db ("voluminy") or die ("Nie mozna wybrać bazy danych");
$query="select id, keywords from tabela where translated=0";
$source=mysql_query($query);
while($english=mysql_fetch_array($source, MYSQL_ASSOC))
{
$keywords=$english['keywords'].",";
$wyst=substr_count($keywords,",");
$key="";
for($i=0;$i<$wyst;$i++)
{
$pozycja=strpos($keywords, ",");
$tab_org[$i]=substr($keywords,0,$pozycja);
$query2 = "SELECT english, polish FROM slownik where english like '$tab_org[$i]'";
$tlumaczenie = mysql_query ($query2);
if($wyr_tlum=mysql_fetch_array($tlumaczenie, MYSQL_ASSOC))
	{
	$key=$key.$wyr_tlum['polish'].",";
	}
	else
	{
	$key=$key.$tab_org[$i].",";
	}
$keywords=substr($keywords, $pozycja+1, strlen($keywords)-$pozycja);
}
 
$sqlu="update tabela set keywords = '".$key."', translated = 1 where id = '".$english['id']."'";
mysql_query($sqlu);
}
print "gotowe"
?>
[PHP] pobierz, plaintext

To działa, ale bardzo wolno, tłumaczy jakieś 100 rekordów na min, co przy 1mil rekordów trwaoby 7 dni

!!!, nie da sie tego zrobić w jakiś inny sposób żeby było szybciej ?

lisu

3.03.2006, 15:42:52

na poczatek poczytaj manuale funkcji implode i explode
co sadzicie aby rozbic te milionowa tablice, tak by jeden tytul mial jednego keyworda w rekordzie i pozniej zapytaniem sql to podmienic i spowrotem zlaczyc CONCAT'em.

Albo II koncepcja

bo wlasnie jeszcze zajrzalem tutaj: mysql i moze warto sie zainteresowac: FIND_IN_SET(str,strlist):
....string list strlist consisting of N substrings. A string list is a string composed of substrings separated by ‘,’ characters..... czyli oddzielane przecinkiem.

jest i nawet SUBSTRING

dr_bonzo

3.03.2006, 16:14:45

A jesli by znormalizowac baze danych, utworzyc takie tabele

ksiazki (czy co to ma byc?)
ID (PK) | tytul

slowa_kluczowe
ID (PK) | slowo_eng | slowo_pl

ksiazki_slowa_kluczowe (do utworzenia relacji wiele-do-wielu)
ksiazka_id(FK) | slowo_kluczowe_id (FK)

1. tabele slowa_kluczowe (jak napisales) juz masz, ladujesz ja do pamieci php tak aby odwolywac sie do niej:

$slowo_kluczowe[ 'angielska_nazwa' ][ 'polskie_tlumaczenie']
i
$slowo_kluczowe[ 'angielska_nazwa' ][ 'ID']

oszczedzasz mnostwo zapytan do bazy po pojedyncze rekordy, a w pamieci zajmie ci to powiedzmy 40.000 x 50B (/slowo) = 2MB -- tyle co nic

2. tabela ksiazki (albo to cos z tytulem)
lepiej utworzyc nowa tabele (i pozostawic ta stara z ID | tytul | slowo; slowo2; itd)

* Odczytujesz jeden rekord ze swojej tabeli, wyciagasz z niego tytul, a slowa kluczowe rozbijasz explode.
* Wstawiasz rekord do tabeli ksiazki i pobierasz, ID ktore zostalo wstawione (mysql_inserted_id)
* dla kazdego slowa kluczowego dla tego rekordu pobierasz jego tlumaczenie i ID w bazie
* do tabeli ksiazki_slowa_kluczowe dla kazdego ze slow kluczowych wstawiasz rekord (id_ksiazki, id_slowa_kluczowego)

3. jesli potrzebujesz zachowac poprzednia strukture bazy (zdenormalizowana) mozesz to zrobic

Mozesz tez tylko uzyc cachowania tlumaczen slow kluczowych (patrz p. 1) -- z tym ze pomijasz pobieranie ID.

Zbadaj (zmierz microtime() co zajmuje najwiecej czasu -- wyciaganie tlumaczen slow, dzielenie pola ze slowami kluczowymi na pojedyncze slowa, itd)

PS. Jak masz taka mozliwosci to zapusc swoj skrypt (na te 7 dni) a w miedzy czasie szukaj lepszego rozwiazania

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.