Wie konvertiert man eine Webseite in PDF, wobei das Aussehen (genau wie im Webbrowser) und der Text/die Links erhalten bleiben?

Ich suche nach einer Möglichkeit, eine Webseite in PDF zu konvertieren, aber das Aussehen der Webseite beizubehalten. Auch der Text der Webseite beibehalten (auswählbar), durchsuchbar [Erzeugen von Bild-Screenshot für die Webseite würde Text weder auswählbar noch durchsuchbar machen].

Ich suche nach dem Drucken der Webseite als PDF (wie im Webbrowser) ohne Manipulation des Stils oder der Ausrichtung oder Verlust der statischen Komponenten einer Webseite.

Dies würde helfen, Offline-Kopien von webseiten, die leicht lesbar, kommentierbar und durchsuchbar sind.


Sie müssen nichts von unten lesen (Frage ist nur der obige Abschnitt) um meine Frage zu bekommen. Der folgende Abschnitt enthält nur eine verschachtelte Auflistung der Antworten, die ich durch Recherchen oder andere erhalten habe, um eine Antwort auf die Frage zu erhalten.

Forschungsergebnisse (Vorschläge, die mein Problem nicht gelöst haben)

Ergebnisse bis jetzt versuchen, eine Lösung zu finden (Alle funktionieren immer noch nicht als Lösung für diese Frage)

Ich habe versucht, diese PDF-web-printing-Motoren, aber alle Seiten manipulieren " Aussehen, mehr sogar schädlich und machen einige kaum lesbar: (Beispiel-Seite screenshots enthalten sind, in eckigen Klammern)

  • Chrome [Original, Druckstile (Deaktiviert | nicht deaktiviert)]
  • Firefox [Original, Druckstile (Deaktiviert ), p2 / nicht deaktiviert p1,p2)]
  • Lesbarkeit
    • Es vereinfacht die Webseite (was eine gute Sache für fokussiertes Lesen ist-dies ist jedoch nicht das, wonach ich suche). Ich suche nach allen Positionen/Stileigenschaften der Webseite, wie sie im Webbrowser angezeigt werden, in einem PDF-Format ohne Manipulation.
  • Foxit Reader -
  • NovaPDF
  • CutyCapt [Original, Zoomfaktor: 0.4: Screenshots, Ausgegeben PDF]
    • werde ich hinzufügen, links, nachdem ich das Problem lösen Programm ausgeführt Probleme unter Windows"
  • wkhtmltopdf [Original, Zoomfaktor: 0.4: Screenshots, Ausgegebene PDF]
    • Es unterstützt CSS3 nicht.

Alle Webpage Screenshot Bildaufnahme Plugins (zB Entführung, Awesome Screenshot, Fireshot, Firefox Screenshot Developer Tool, Ganzseitige Bildschirmaufnahme, Page2Images, web-capture,...) nicht meine Frage beantworten, weil Sie nicht preserve text und links.

Scrible ist großartig darin, Webseiten beizubehalten, ebenso wie für weitere Anmerkungen und Recherchen, aber leider immer noch online und ohne Konvertierung in das PDF-Format.

Es gibt zwei andere Fragen in der Community, die irgendwie meinen ähnlich sind, aber diese ist ein bisschen anders, aber mit denen wichtige Unterschiede:

  • Wie bekomme ich WYSIWYP (drucke, was du siehst) in einem Webbrowser?
    • Diese Frage fragt nach einer Möglichkeit, eine Webseite zu erfassen (wie auf dem Bildschirm zu sehen), auch wenn es sich um ein Bild handelt und Text nicht erhalten bleibt. Während ich auch nach dem Erfassen von Text und Links suche (, um Text und Links beizubehalten).

Weitere ähnliche Fragen, bei denen das Beibehalten von Text und Links keine Voraussetzung ist (Seiten werden aufgenommen als Bild ( meistens):


Anmerkungen

Betriebssystem: Windows 10

Author: Omar, 2016-04-12

9 answers

Wir hatten das gleiche Problem in einem Universitätsprojekt und konnten es mit

Wkhtmltopdf

Wir haben die Funktionen dieses Tools in der Befehlszeile sehr genossen. Wir haben es auch mit Python-Code aufgerufen, um den aktuellen Status von Webseiten zu rendern. Es hat die Möglichkeit, die Webseite als PDF zu liefern, normalerweise nicht perfekt, um die Website-Ansicht aufgrund der Seitenformatierung beizubehalten (z. B. A4) oder als PNG (behält die Ansicht der Seite bei, aber keine Links)

Es gibt auch die Lesbarkeit(für Python:pypi.python.org/pypi/readability-lxml) projekt, das wir verwendet haben, macht das Entfernen von Anzeigen und die Erkennung von Inhalten recht gut (z. B. für Zeitungsartikel und dergleichen). Wenn Sie nur ein Addon oder eine Erweiterung für Ihren Browser wünschen, erfüllt die folgende Lesbarkeitsimplementierung möglicherweise Ihre Anforderungen:

Jetzt offline: https://www.readability.com/addons/

WaybackMachine Link: https://web.archive.org/web/20160308192045/https://readability.com/addons

 8
Author: sebisnow,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2020-05-12 11:41:14

Ich habe wirklich damit gekämpft und die meisten der bisher erwähnten Tools ausprobiert. Die besten Ergebnisse, die ich erzielt habe, waren der Headless-Modus von Chrome. Der Befehl unter macOS würde folgendermaßen aussehen:

/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --headless --print-to-pdf=test.pdf http://127.0.0.1:8080

Die beste Liste der Befehlszeilenoptionen, die ich gefunden habe, war hier.

Es gab jedoch Probleme damit. Insbesondere sind meine Seiten sehr Javascript-schwer und ich konnte die Druckfunktion nicht warten lassen, bis sie fertig sind Ausführung. Meine Ausgabe hatte also nicht die Bilder in es.

Die Lösung, die ich gefunden habe, war ein NodeJS-Paket: chrome-headless-render-pdf. Es ist spärliche Dokumentation ist hier. Es funktioniert und es ist leicht skriptfähig.

 5
Author: AlanObject,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2019-05-26 14:04:39

Eine andere Antwort für mögliche Benutzer hinzufügen. In Firefox gab es früher ein Addon "Seiten in PDF drucken". Sie können nach der letzten Version 0.1.9.3 suchen (nur mit Pre-Quantum-Versionen arbeiten).

Derzeit gibt es dieses Addon für Chrome und Firefox, das recht gut funktioniert: PDFMage

  • Speichern Sie alle Bilder auf Seite
  • Generieren Sie Text als Text, nicht als Bild, können Sie Text in generierten PDF suchen.
  • "Das war ein sehr gutes Spiel", sagte er.]}
  • Hat die Möglichkeit ein lange Webseite als einseitiges PDF (damit die Bilder nicht zwischen Seiten aufgeteilt werden)
 4
Author: nmhung1985,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2019-07-27 11:34:15

Ich hatte das gleiche Problem und fand es über Chrome und mit einem kostenlosen Druckertreiber namens PDF995 heraus. Dies ist Teil einer suite von PDF-Dienstprogramme; der Herausgeber der Website ist http://www.pdf995.com/.

Ich denke jedoch, dass jeder Webbrowser und jeder PDF-Konverter ausreichen werden. Wie auch immer, hier ist, was ich getan habe:

  1. alle auswählen oder alles markieren.
  2. Rechtsklick auf die markierte Auswahl oder drücken Sie Strg+P (beide Optionen geben Ihnen etwas andere Ergebnisse, aber sie haben nach Abschluss das gleiche Ergebnis).

  3. Wenn Sie mit der rechten Maustaste in 2., die Auswahl (die Abkürzung), klicken Sie auf "drucken" und nur alle, die Sie ausgewählt haben, wird auf der Druckvorschau sein. Stellen Sie sicher, dass Sie Ihr Druckerziel in einen beliebigen PDF-Konverter ändern, den Sie verwenden möchten (PDF995 oder einen anderen).

  4. Klicken Sie auf "Drucken" und es wird als PDF-Dokument gespeichert.

  5. Wenn Sie Strg+P in 2 gedrückt haben. (der etwas längere Weg) Klicken Sie stattdessen auf "Weitere Einstellungen" und scrollen Sie nach unten zu "Optionen".

  6. Klicken Sie auf das Feld "Nur Auswahl" und alles in der von mir beschriebenen Abkürzung folgt.

  7. Vergessen Sie nicht, Ihr Druckerziel in einen beliebigen PDF-Konverter (PDF995 oder einen anderen) zu ändern.

  8. Klicken Sie auf "drucken".

 2
Author: user726167,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2019-07-27 19:58:56

Wenn Sie unter Linux sind, versuchen Sie dieses kleine Befehlszeilentool CutyCapt , das nur von Qt und QtWebKit abhängt und in PDF exportiert wird.

 1
Author: Ezequiel Tolnay,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2016-04-13 04:42:05

Obwohl nicht genau Ihre Anfrage als nicht in PDF enthalten ist, würde das Speichern als Webseite genau das tun, wenn das Ziel lediglich darin besteht, eine Offline-Kopie von Webseiten zur späteren Überprüfung aufzubewahren.

Der große Nachteil ist, dass es ein erstellen .html-Datei und einen Ordner mit allen Medieninhalten auf der Seite, anstatt ein einzelnes Dokument.

In Chrome und Firefox können Sie eine Seite speichern, indem Sie mit der rechten Maustaste darauf klicken und Speichern unter auswählen... Im Internet Explorer können Sie es unter Datei -> Speichern unter (Drücken die Alt-Taste für die Menüs angezeigt werden).

 0
Author: Pyheme,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2016-04-12 15:31:23

Versuchen Sie diesen Dienst. Erstellt ein PDF von einer Website, wie Sie es im Browser sehen. https://lomotoh.com/ (Ich bin mit dieser Seite verbunden)

 0
Author: David Herse,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2016-10-16 05:34:28

Zumindest der gesamte Text auf einigen Seiten ist durchsuchbar, auswählbar, ausschneiden und Einfügen. Ich habe versucht, auf einer Seite, die robotisch von einem Computer aus Text und Pix eingefügt wurde, und es hat alles in ein Bild abgestimmt.

Ich habe diese Dinge seit Jahren benutzt. Ich erhalte die besten Ergebnisse unter Linux, indem ich die Seite in einem einzigen Wort Ihrer Wahl neu erstelle und das Ergebnis als PDF exportiere. Ich kann bekommen, was ich will, zu beträchtlichen Kosten. Aus meiner begrenzten Verwendung arch ivin Der Website David Herse setzen https://lomotoh.com/ (ich bin NICHT mit diesem verbundene Seite) funktioniert so gut wie jeden, den ich jemals benutzt habe. Ich werde meine Go-to-Ressource sein, um Webseiten mit PDFs abzudecken, bis ich es besser finde oder es zu viel kostet, aus eigener Tasche zu bezahlen Geldbörse.

 0
Author: Gordon Couger,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2017-03-03 23:41:07

Ich würde vorschlagen, wkhtmltopdf erneut zu versuchen, wie von @sebisnow in ihre Antwort vorgeschlagen, mit etwas Vorverarbeitung.

Öffnen Sie vor dem Ausführen des Programms die Entwicklertools (Strg+Verschiebung+I) und passen Sie die Elemente an, die nicht richtig sitzen. Wahrscheinlich reagieren sie auf Telefon/Desktop / Tablet, was bedeutet, dass die Positionen relativ zu anderen HTML-Objekten sind. Machen Sie stattdessen absolute Positionen.

Quelle der Seite bearbeiten, fokussierung auf die Ränder und das Auffüllen der betreffenden Objekte. Wenn Sie die Leinwand einfach um 10-15% vergrößern, erhalten manchmal sogar relative Elemente genügend virtuellen Raum, damit sie sich nicht bewegen.

Ich verwende häufig die Entwicklertools, um Seitenelemente anzupassen, wenn ich in PDF drucke, sodass ich eine Referenzdatei für später habe. In Verbindung mit wkhtmltopdf sollten Sie in der Lage sein, die Site wie im Browser mit den gesuchten Funktionen wie Bild und Link anzuzeigen. sowie Text.

 0
Author: SentientFlesh,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/techietown.info/template/agent.layouts/content.php on line 61
2020-12-21 01:29:02