Forum PHP.pl > [PHP]$DOM->getElementsByTagName('tr'); obcina wszystkie znaczniki

Pomoc - Szukaj - Użytkownicy - Kalendarz

Pełna wersja: [PHP]$DOM->getElementsByTagName('tr'); obcina wszystkie znaczniki

php11

21.10.2022, 18:22:13

Cześć,

chcę przenieść zawartość tabeli html do php by odpowiednio wyświetlić dane.
Poniższy przykład działa prawie dobrze

[HTML] pobierz, plaintext 
https://gist.github.com/vihoangson/1d0c4d5b9de97d29d72ee1dda7256f6c
[HTML] pobierz, plaintext

jednak obcina za dużo ;-)

Poza znacznikami tabeli usuwa też znaczniki linków, zdjęcia, które w tej taneli są.
Co zrobić, by tak się nie działo?

Z góry dziekuję za podpowiedzi...

Salvation

21.10.2022, 20:57:31

Wynika to z dokumentacji: https://www.php.net/manual/en/class.domdocument.php
`nodeValue` zwraca wartość STRING. Jak wiesz, że w znaczniku `td` masz jeszcze inne znaczniki HTML, to użyj po raz kolejny `childNodes`.

trueblue

21.10.2022, 21:11:57

Jeśli chcesz uzyskać zawartość elementu jako string (coś w rodzaju innerHTML z JS), to użyj metody C14N.

Polecam:
https://kawalekkodu.pl/the-tag-is-out-there...domxpath-s01e01
https://kawalekkodu.pl/the-tag-is-out-there...domxpath-s01e03
https://kawalekkodu.pl/the-tag-is-out-there...domxpath-s01e03
https://kawalekkodu.pl/the-tag-is-out-there...domxpath-s01e04

php11

22.10.2022, 08:16:12

Dzięki, powalczę.

Jako uzupełnienie dodam, że potrzebuję uzyskać:

- tablice z zawartością znajdującą się między <tr></tr>
- w której elementami będzie zawartość <td></td>

trueblue

22.10.2022, 08:48:09

Jeśli jako zawartość rozumiesz kod HTML wewnątrz znacznika <td>, to C14N będzie tym, czego potrzebujesz.
Zakładam, że potrzebujesz tablicy dwuwymiarowej - musisz więc przeiterować po wierszach, w każdym wierszy po kolumnach i wyciągnąć wspomnianą zawartość.

php11

22.10.2022, 15:39:35

Tak, dokładnie tego chcę, ale schody przede mną...

[PHP] pobierz, plaintext 
$html = file_get_contents('tabela.html');
$dom = new DOMDocument;
$dom->loadHTML(mb_convert_encoding($html, 'HTML-ENTITIES', 'UTF-8'));
$xpath = new DOMXPath($dom);
$oddTrs = $xpath->query('//table//tr[position() mod 2=1 and position()>1]');
$oddAAA = $xpath->query('//table//td');
 
$aaa = [];
$bbb = [];
foreach($oddTrs as $key => $tr) {
    $zzz = $tr->C14N() . PHP_EOL;
 
		if ($td == $key) {
			foreach($oddAAA as $td) {
				$ccc = $td->C14N();
			}
			//$aaa[] = $ccc;
		}
 
	$bbb[] = $ccc;
}
print_r($bbb); 
die();
 
[PHP] pobierz, plaintext

trueblue

22.10.2022, 16:52:37

Dla każdego wiersza musisz pobrać jego <td>. Sprawdź drugi argument metody query w dokumentacji.
Fajnie, że zerkałeś w moje przykłady, ale czy na pewno chodziło Ci o pobranie tylko nieparzystych wierszy? W artykule jest o tym mowa.

php11

23.10.2022, 11:46:25

Echhhh, pierwszy poziom jakoś odbieram, ale dalej...

[PHP] pobierz, plaintext 
$html = file_get_contents('tabela.html');
$dom = new DOMDocument;
$dom->loadHTML(mb_convert_encoding($html, 'HTML-ENTITIES', 'UTF-8'));
$xpath = new DOMXPath($dom);
$wiersze = $xpath->query('//table//tr');
$zzz = [];
foreach($wiersze as $key => $tr) {
 
	$zzz[] = $tr->C14N() . PHP_EOL;
	$zzz = str_replace('&#;', '', $zzz);
 
}
print_r($zzz); 
die();
 
[PHP] pobierz, plaintext

trueblue

23.10.2022, 12:04:12

Tak jak pisałem, dla każdego wiersza powinieneś pobrać jego <td> metodą query.

php11

23.10.2022, 12:39:45

Tak, wiem, próbuję to od wczoraj zrobić ...

Dzięki za cierpliwość :-)

Edycja--------------------

Ponieważ nie dałem rady, wykombinowałem coś takiego:

1. Usunąlem zbędne znaki

[PHP] pobierz, plaintext 
foreach($wiersze as $key => $tr) {
	$zzz[] = $tr->C14N() . PHP_EOL;
	$zzz = str_replace('&#;', '', $zzz);
	$zzz = str_replace('<tr>', '', $zzz);
	$zzz = str_replace('</tr>', '', $zzz);
	$zzz = str_replace('<td>', '', $zzz);
	$zzz = str_replace('</td>', ',', $zzz);
}
[PHP] pobierz, plaintext

2. Uworzyłem tablicę w wierszach

[PHP] pobierz, plaintext 
$uuu = [];
foreach($zzz as $key => $td) {
    $uuu[] = $td = explode(',', $td);
}
[PHP] pobierz, plaintext

3. I chyba mam to, co chciałem do dalszej obróbki...

[PHP] pobierz, plaintext 
foreach($uuu as $key => $final) {
    echo $final[0] .'---'. $final[1] .'---'. $final[2] .'<br />';
}
[PHP] pobierz, plaintext

@trueblue, jeśli możesz podzielić się Twoim kodem to chętnie się czegoś nauczę :-)
Domyślam się, że moja robota "na piechotę" nie jest za bardzo wydajna...
Dzięki!

trueblue

24.10.2022, 09:36:06

Mój błąd, metoda C14N jest odpowiednikiem outerHTML z JS, bo zwraca również kod aktualnego węzła. Ponadto przekształca kod HTML na zgodny z XML.
Poniższa metoda też nie jest idealna (ma pierwszą wadę z C14N, ale nie zmienia kodu).

[PHP] pobierz, plaintext 
<?php
$html='<table><tr><td>1</td><td><a href="#">2</a></td></tr><tr><td>3</td><td>4</td></tr></table>';
$dom = new DOMDocument;
$dom->loadHTML(mb_convert_encoding($html, 'HTML-ENTITIES', 'UTF-8'));
$xpath = new DOMXPath($dom);
 
$trs = $xpath->query('//table/tr');
$tabela = [];
 
foreach($trs as $key1 => $tr) {
	$tabela[$key1]=[];
 
	$tds = $xpath->query('.//td', $tr);
 
	foreach($tds as $key2 => $td) {
		$tabela[$key1][$key2]=substr(substr($td->ownerDocument->saveHTML($td),4),0,-5);
	}
}
print_r($tabela); 
?>
[PHP] pobierz, plaintext

php11

11.11.2022, 19:11:45

Dzięki!

Jednak nie mogę dojść, dlaczego znaczniki </td> nie są zawsze tak samo obcinane:

https://prnt.sc/I7T7y8Imv5yQ

trueblue

11.11.2022, 19:14:25

A jak wygląda HTML?

php11

11.11.2022, 19:18:12

Dokładnie ten z Twojego postu powyżej

trueblue

11.11.2022, 19:25:02

Zmień na:

[PHP] pobierz, plaintext 
$tabela[$key1][$key2]=substr(substr(trim($td->ownerDocument->saveHTML($td)),4),0,-5);
[PHP] pobierz, plaintext

Nie wnikam dlaczego, ale jest różnica w tym co zwraca PHP <=7.2 (źle) a PHP >=7.3 (dobrze). W problematycznym przypadku pojawiają się czasem \n na końcach "wyciągniętej" zawartości <td>.

P.S. Albo trim(... , "\n\r\t\v\x00") gdybyś jednak nie chciał tracić spacji wiodących i kończących.

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.