Gwałcenie pdf’ów
Ksiązki, ebooki, instrukcje, manuale, howto i im podobne, leża tylko i czekają, aż ktoś wstawi do nich swoje linki :> I mamy już plan - naściągać pdfów, przelecieć parserem, wrzucić do bazy i przerobić na stronę.
Tylko jak?
Samo wrzucenie do bazy i przerobienie na spam już pominę, bo nie o tym miał byc ten post. Nie znalazłem ani jednej klasy php, która zajmowałaby się czytaniem pdfów. Niewiele jest też o tym w internecie. W takim razie trzeba sobie czymś pomóc. Linuchem ;). pdftotext to przecudowny program odpalany z terminala, który ślicznie przerobi nam plik z pdf na txt. Problemów z czytaniem txt w php już nie ma, więc taki wynikowy plik spokojnie możemy przeparsować i zrobić z nim co nam się podoba.
Użycie pdftotext jest banalne:
pdftotext plikpdf.pdf
z php odpalamy to np. tak:
<?php
shell_exec('pdftotext nazwapliku.pdf');
?>
W wyniku otrzymamy plik o takiej samej nazwie, jak plik wejściowy, ze zmienionym rozszerzeniem na .txt.
Z tego co zdążyłem zauważyć, program niekiedy dodaje spacje tam, gdzie ich być nie powinno.
Dostępne są klasy do listowania zawartości katalogu w array(), wiec robimy loopa i jedziemy tak po wszystkich ![]()
Reader Comments:
Be the first to leave a comment!