PaECTER (Patent-Level Representation Learning Using Citation-Informed Transformers) wurde von Mainak Ghosh, Sebastian Erhardt, Michael E. Rose, Erik Buunk und Dietmar Harhoff entwickelt und nutzt fortschrittliche transformer-gestützte Techniken maschinellen Lernens, die mit Patentzitationsdaten trainiert wurden. Das Modell wurde speziell entwickelt, um die komplexen Herausforderungen der Analyse von Patenttexten zu meistern, und bietet erhebliche Verbesserungen bei der Identifizierung und Kategorisierung ähnlicher Patente, was es sowohl für die Patentprüfung als auch Innovationsforschung besonders wertvoll macht.
Das neue NBER-Arbeitspapier „Patent Text and Long-Run Innovation Dynamics: The Critical Role of Model Selection“ vergleicht PaECTER eingehend mit anderen Sprachverarbeitungsmodellen (NLP-Modellen). Die Autor*innen Ina Ganguli (University of Massachusetts Amherst), Jeffrey Lin (Federal Reserve Bank of Philadelphia), Vitaly Meursault (Federal Reserve Bank of Philadelphia) und Nicholas Reynolds (University of Essex) wogen die Leistungen der Modelle bei Patentinterferenz-Aufgaben ab, wo mehrere Erfinder Patentansprüche für ähnliche Erfindungen erheben.
Die Studie kam zu dem Schluss, dass PaECTER im Vergleich zu herkömmlichen Modellen wie TF-IDF (Term Frequency – Inverse Document Frequency: ein Maß zur Bewertung der Relevanz eines Wortes in einem Dokument innerhalb einer Sammlung von Dokumenten) die Zahl falsch-positiver Ergebnisse erheblich reduziert und die Effizienz steigert. Die Studie zeigte auch die Fähigkeiten von PaECTER im Vergleich zu anderen modernen Modellen wie GTE und S-BERT (Generalized Text Embedding und Sentence-BERT als Methoden zur Repräsentation von Texten in Form von numerischen Vektoren, die semantische Informationen über Wörter oder ganze Sätze erfassen). Während PaECTER bei expertengesteuerten Aufgaben wie der Identifizierung von Interferenzen außerordentlich gut abschnitt, behauptete es sich auch bei allgemeineren Aufgaben der Patentklassifizierung, was seine vielseitige Einsetzbarkeit weiter unterstreicht.
„Wir freuen uns, dass die Leistung von PaECTER durch die NBER-Studie validiert wurde, die seine Stärken bei der Patentähnlichkeitsanalyse aufzeigt und seine Rolle als zuverlässiges Werkzeug für alle, die im Bereich Innovation und geistiges Eigentum arbeiten, bestätigt“, sagt Mainak Ghosh, einer der Entwickler von PaECTER. „Diese unabhängige Validierung bestärkt seine Relevanz im Bereich der Patentprüfung.“
Das PaECTER-Modell ist auf der Plattform Hugging Face verfügbar und damit für Forschende, politische Entscheidungsträger*innen und Patentfachleute weltweit zugänglich. Seine robuste Performance, wie in der NBER-Studie nachgewiesen, unterstreicht seinen Wert im Hinblick auf eine verbesserte Verarbeitung von Patentdaten und trägt zu einer genaueren und effizienteren Analyse von Patentinnovationen über die Zeit bei. Bisher wurde PaECTER mehr als 1,4 Millionen Mal heruntergeladen.
Mehr Infos:
PaECTER auf Hugging Face
Ganguli, Ina; Lin, Jeffery; Meursault, Vitaly; Reynolds, Nicholas F. (2024). Patent Text and Long-Run Innovation Dynamics: The Critical Role of Model Selection (No. w32934). National Bureau of Economic Research. Verfügbar unter https://www.nber.org/papers/w32934
Ghosh, Mainak; Erhardt, Sebastian; Rose, Michael; Buunk, Erik; Harhoff, Dietmar (2024). PaECTER: Patent-Level Representation Learning Using Citation-Informed Transformers, arXiv preprint 2402.19411. Verfügbar unter https://arxiv.org/abs/2402.19411