Anzeige:
Ergebnis 1 bis 6 von 6

Thema: Skript/Programm zum Ausfiltern von Domain-Namen

  1. #1
    Registrierter Benutzer
    Registriert seit
    03.09.2006
    Beiträge
    120

    Question Skript/Programm zum Ausfiltern von Domain-Namen

    Ich benötige ein Skript (mit awk oder sed oder ...) oder ein
    Programm, das Domainnamen in Text-Dateien findet und in eine
    Ausgabedatei ablegt, hauptsächlich für DNS-Server-Checker wie
    ZensorChecker, DNS Blocklist Probe und Censorshiptools.

    Das Ausfiltern sollte halbwegs korrekt erfolgen, also z. B.
    aus

    http://www.example.co.uk

    NICHT

    co.uk

    ausfiltern sondern

    example.co.uk

    (das sogar existiert).
    Gefunden habe ich in die Richtung schon urlparse für Python und
    pars_url für PHP, aber ich kann weder Phython noch PHP
    Perl kann ich etwas, Bash gut und C sehr gut; gibt es nicht auch
    dafür etwas oder gleich fertige Programme oder Skripte?

  2. #2
    Registrierter Benutzer Avatar von jeebee
    Registriert seit
    01.01.2005
    Ort
    Bern || Zürich
    Beiträge
    540
    Also wenn du C sehr gut kannst, sollte PHP nicht so ein problem sein. Die Doku auf de.php.net ist ja ziemlich gut und die Sprachkonstrukte sind ziemlich ähnlich wie C.
    my very own 128 bit integer
    C4 D3 B8 A8 9E A0 C6 EC 7D EC A8 15 28 D1 92 58
    more information

  3. #3
    Registrierter Benutzer
    Registriert seit
    03.09.2006
    Beiträge
    120
    Ok, im Prinzip geht es, aber parse_url hat Probleme, wenn in einer Zeile Sonderzeichen sind und die Variable in Kommata zu setzen ($line) hift nicht.
    Was kann man da machen?
    Geändert von Linus (16-07-2009 um 02:00 Uhr)

  4. #4
    Registrierter Benutzer
    Registriert seit
    03.09.2006
    Beiträge
    120
    Noch ein anderes Problem: parse_url funktioniert nur mit kompletten URLs; einfache Domain-Namen wie "example.com" kann es nicht erkennen
    Welche Alternativen gibt es

  5. #5
    Registrierter Benutzer
    Registriert seit
    14.01.2002
    Beiträge
    657
    pragmatischer ansatz: liste aller tlds nehmen und dann jeden übergebenene
    namen danach checken. Domainname ist der bereich der direkt vor der TLD bis einschließlich einem . steht + TLD. Falls kein punkt vorkommt das ganze.

  6. #6
    Registrierter Benutzer
    Registriert seit
    03.09.2006
    Beiträge
    120
    Zitat Zitat von msi Beitrag anzeigen
    pragmatischer ansatz: liste aller tlds nehmen und dann jeden übergebenene
    namen danach checken. Domainname ist der bereich der direkt vor der TLD bis einschließlich einem . steht + TLD. Falls kein punkt vorkommt das ganze.
    Ja, klar, ich arbeite schon daran, seit ich weiß das urlparse und parse_url ungeeignet sind.

Lesezeichen

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •