Søgning i pdf-filer på www

Tilmeldt 20. Apr 07

Indlæg ialt: 16014

Slettet bruger Skrevet 13-04-2010 kl. 12:22

Hvor mange stjerner giver du? :

Har en hjemmeside med en masse pdf-filer.

Vil gerne tilføje et søgeboks, hvor jeg kan fritekstsøge i indholdet i disse pdf-filer. Nogen der kender til en løsning?

Fra Roskilde

Tilmeldt 28. May 09

Indlæg ialt: 802

Emil Pedersen Fra Web-Creation.dk Skrevet 13-04-2010 kl. 12:26

Hvor mange stjerner giver du? :

Hej.

Dette kan gøre med en simpel php & mySQL kode.

<?php
// Laver en MySQL forbindelse
mysql_connect("localhost", "admin", "1admin") or die(mysql_error());
mysql_select_db("test") or die(mysql_error());

// Finder resultatet der er søgt på i tabellen "example"
$result = mysql_query("SELECT * FROM example
 WHERE name='Sandy Smith'") or die(mysql_error());  

// Udskriver de resultater der er fundet.
$row = mysql_fetch_array( $result );
// Udskriver resultatet med name & age.
echo $row['name']." - ".$row['age'];
?>

Web-Creation.dk

Billige webløsninger!

Tilmeldt 10. Nov 09

Indlæg ialt: 0

slettet_bruger Skrevet 13-04-2010 kl. 12:31

Hvor mange stjerner giver du? :

Emil Pedersen: Tror ikke du læste det han skrev helt igennem.

--

Det jeg tror du skal gøre er en kombination mellem det Emil Pedersen skriver hvor du har alt det indhold fra PDF filerne lagt ind i databasen, jeg tror ikke man bare lige kan søge i PDF filer, desværre... det nemmeste ville være hvis dine PDF filer var genereret diarakte ud fra et system hvor data allerede nu ligger i en form af database.

ellers tror jeg desværre du vil få meget svært ved dette.

Fra Greve

Tilmeldt 21. Sep 09

Indlæg ialt: 554

Jimmy B. Carlsen Fra dymagic Skrevet 13-04-2010 kl. 12:46

Hvor mange stjerner giver du? :

Google Site Search vil kunne søge i PDF'er - det er dog ikke gratis...

Mobilsignatur Test

Fra København

Tilmeldt 14. Dec 05

Indlæg ialt: 624

Tobias G Fra Teambuilding Skrevet 13-04-2010 kl. 12:58

Hvor mange stjerner giver du? :

Hvis dine PDF'er er indekserede af Google, så kan du bruge Google customised search på din hjemmeside, og indsætte parameteren "filetype:pdf" og "site:www.dinhjemmeside.dk"

Nyt projekt: polterabend . Eller prøv teambuilding.dk

Tilmeldt 9. May 07

Indlæg ialt: 214

nielsen Skrevet 13-04-2010 kl. 14:04

Hvor mange stjerner giver du? :

Er det ikke nemmere - og bedre - at have teksterne i simpelt html ? Dvs du skal konvertere pdf-filerne til simple html-filer. Jeg kender ikke dit rigtige formål, og hvad man bør gøre afhænger meget af den konkrete situation.

Tilmeldt 20. Apr 07

Indlæg ialt: 16014

Slettet bruger Skrevet 14-04-2010 kl. 06:43

Hvor mange stjerner giver du? :

Nej, de skal ligge i pdf, således at de kan distribueres, downloades og printes.

Det skal være noget a la freefind.com, men det er en 3. parts løsning, som ikke er det bedste.

Fra Helsingborg

Tilmeldt 3. Apr 05

Indlæg ialt: 6572

Niels Henriksen Fra TextReactor Skrevet 14-04-2010 kl. 06:59

Hvor mange stjerner giver du? :

TICPH:
Nej, de skal ligge i pdf, således at de kan distribueres, downloades og printes.

Det du kan gøre er at lægge teksten i en database og lave denne søgbar. Når man så har fundet noget så kan du vise hvilke PDF'er som indeholder den tekst.

Jeg har programmeret i over 27 år. Jeg har kodet i C, C++, Java, Delphi, Perl, JavaScript, C#, F#, VB.NET, ASP, Myresnak :D, Comal80 osv....

Fra Charlottenlund

Tilmeldt 14. Apr 10

Indlæg ialt: 19

Eirik Svith Skrevet 14-04-2010 kl. 22:26

Hvor mange stjerner giver du? :

Hej. Dette er mit første indlæg på Amino, så jeg vil bestræbe mig på at udforme det så hjælpsomt som muligt :)
Læsning af pdf-filer kan opnås nogenlunde smertefrit ved at kombinere php med software som xpdf (kan hentes gratis på http://www.foolabs.com/xpdf/). Nu ved jeg ikke om din hjemmeside hostes på en Windows- eller en Unix-server, men i dette eksempel antager jeg at vi kører på en Windows-server.

Lad os antage at alle dine pdf-filer ligger i én mappe på serveren. Det handler da blot om at loope filerne i denne mappe igennem, og for hver fil, vha. en system-command køre xpdf’s pdftotext-funktion på hver pdf-fil og lad php håndtere outputtet.

Koden kunne eksempelvis tage sig ud på følgende måde:
<?php
$handle = opendir('./'); //Mapppen hvori pdf-filerne ligger

while ($file = readdir($handle)) { //Alle filerne gennemløbes
if ($file != '.' && $file != '..') {
echo system('pdftotext.exe '.$file.' -'); //Filernes indhold udskrives (kræver at du har tilladelse til at udføre system-commands)
}
}
?>

Selvfølgelig skal du i stedet for at udskrive resultatet, søge i det på en eller anden måde. Det ville nok også være en idé, at verificere at det indlæste rent faktisk er en pdf-fil, but you get the basic idea :)

Du skal dog regne med at, en metode som denne hurtigt vil blive meget krævende for serveren. Dels fordi det at konvertere en pdf-fil til plain-text er krævende, men også fordi at du for hver eneste søgning, er tvunget til at gennemsøge alle filerne.

Så i sidste ende er jeg nok enig med Niels, det mest effektive vil være at have det hele liggende i en database, da denne søger langt mere intelligent. Måske ovenstående script kunne bruges til at smide det hele ind i en database?

Håber at dette var til hjælp.
Vh. Eirik.