{"id":20291,"date":"2021-07-21T14:48:10","date_gmt":"2021-07-21T21:48:10","guid":{"rendered":"https:\/\/blog.webex.com\/uncategorized-de\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\/"},"modified":"2021-08-03T07:30:15","modified_gmt":"2021-08-03T14:30:15","slug":"welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung","status":"publish","type":"post","link":"https:\/\/blog.webex.com\/de\/maschinenbau\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\/","title":{"rendered":"Welche Neuerungen bietet MindMeld hinsichtlich Duplikaterkennung?"},"content":{"rendered":"<h2><strong>Einf\u00fchrung<\/strong><\/h2>\n<p>Die Duplikaterkennung ist der Vorgang der eindeutigen Zuordnung eines Objekts. Dabei wird eine textbasierte Nennung dem geeignetsten realen Namen in einer durchsuchbaren Knowledge Base (KB) zugeordnet. Beispielsweise wird \u201e<em>madrid fc<\/em>\u201c mit \u201e<em>Real Madrid Club de F\u00fatbol<\/em>\u201c verkn\u00fcpft, wobei Ersteres eine der alternativen Kurzbezeichnungen f\u00fcr Letzteres ist. Duplikaterkennung wird alternativ auch als Objektidentifizierung, Record Linkage oder Datendeduplikation bezeichnet.<\/p>\n<p>Die Duplikaterkennung ist als Teil von MindMelds <a href=\"https:\/\/www.mindmeld.com\/docs\/userguide\/architecture.html\">NLP-Pipeline<\/a> verf\u00fcgbar und wird f\u00fcr die eindeutige Zuordnung aller Objekte in der Benutzereingabe durch Abgleich mit einer vorbef\u00fcllten KB verwendet. In der <a href=\"https:\/\/www.mindmeld.com\/docs\/userguide\/entity_resolver.html\">offiziellen Dokumentation<\/a> erfahren Sie, wie Sie eine KB f\u00fcr die Duplikaterkennung erstellen und bei der Erstellung einer MindMeld-Anwendung damit arbeiten.<\/p>\n<p>Bislang bot MindMeld zwei Optionen f\u00fcr die Duplikaterkennung: eine auf Basis der <a href=\"https:\/\/www.elastic.co\/products\/elasticsearch\">Elasticsearch<\/a> Volltextsuche- und Analyse-Engine sowie eine Ersatzfunktion basierend auf einem einfachen Exact-Matching-Algorithmus. Mit zunehmend vielf\u00e4ltigen Anwendungen von MindMeld sind diese Optionen m\u00f6glicherweise nicht immer geeignet. F\u00fcr die erweiterte Unterst\u00fctzung bietet MindMeld nun zwei weitere Optionen f\u00fcr die Duplikaterkennung: eine auf Basis von <a href=\"https:\/\/en.wikipedia.org\/wiki\/Tf%E2%80%93idf\">TF-IDF<\/a> und eine weitere auf Basis von Repr\u00e4sentationen von vorab trainierten neuronalen Modellen (<a href=\"https:\/\/github.com\/UKPLab\/sentence-transformers\">BERT<\/a>, <a href=\"https:\/\/nlp.stanford.edu\/projects\/glove\/\">GloVe,<\/a> <a href=\"https:\/\/fasttext.cc\/\">fastText<\/a> usw.). Diese neuen Optionen haben keine Abh\u00e4ngigkeiten von Elasticsearch (und seinen Diensten).<\/p>\n<p>Bevor wir uns diesen neuen Optionen im Detail zuwenden, fassen wir nochmals kurz zusammen, wie eine Objekt-Knowledge-Base in MindMeld strukturiert ist. Folgendes Beispiel stammt aus der <a href=\"https:\/\/www.mindmeld.com\/docs\/blueprints\/food_ordering.html\">Vorlage Essensbestellung<\/a> und der f\u00fcr die eindeutige Erkennung der Bezeichnungen von Speisen erstellten Knowledge Base:<\/p>\n<div id=\"attachment_18909\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-18909\" class=\"wp-image-18909 size-full\" src=\"https:\/\/storage.googleapis.com\/wx-blg-prd-gcs\/wp-content\/uploads\/1\/2021\/07\/Food-Ordering-blueprint.png\" alt=\"Vorlage Essensbestellung\" width=\"492\" height=\"720\" srcset=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/07\/Food-Ordering-blueprint.png 355w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/07\/Food-Ordering-blueprint-205x300.png 205w\" sizes=\"auto, (max-width: 492px) 100vw, 492px\" \/><p id=\"caption-attachment-18909\" class=\"wp-caption-text\"><br \/>\n<\/a> Schnappschuss einer Knowledge Base f\u00fcr die Duplikaterkennung<\/p><\/div>\n<p>\u00a0<\/p>\n<p>Wie zu sehen ist, finden sich im Feld \u201ewhitelist\u201c einige h\u00e4ufige Bezeichnungen der jeweiligen Speisen unter \u201ecname\u201c (canonical name, Standardbezeichnung), und das Feld \u201eid\u201c verweist auf einen eindeutigen, offiziell erkannten Eintrag in der Knowledge Base. Diese drei Felder sind die Hauptbestandteile eines Objekts in der KB. Der Text im Feld \u201ecname\u201c wird im Allgemeinen f\u00fcr Antworten in Gespr\u00e4chen verwendet, und die Bezeichnungen im Feld \u201ewhitelist\u201c werden gemeinsam mit der Standardbezeichnung als Aliase f\u00fcr die Duplikaterkennung verwendet. Die Duplikaterkennung liefert h\u00e4ufig die besten Ergebnisse, wenn das Feld \u201ewhitelist\u201c umfassende Eintr\u00e4ge enth\u00e4lt (z.\u00a0B. alternative Verwendungen, Tippfehler, Kurzformen usw.). Diese Art von Kuratierung kann bei manchen Anwendungen m\u00fchselig sein, ist aber f\u00fcr Objekte in hochspezialisierten Dom\u00e4nen unvermeidbar.<\/p>\n<h2><strong>Erfahren Sie mehr \u00fcber die neuen Optionen<\/strong><\/h2>\n<p>Mit Ausnahme von Exact Match besteht der erste Schritt in der Erstellung einer Vektorrepr\u00e4sentation des Eingabetextes sowie f\u00fcr alle Eintr\u00e4ge in der KB (cname und whitelist), die als Aliase f\u00fcr die Duplikaterkennung dienen. Anhand eines \u00c4hnlichkeitsma\u00dfes (z.\u00a0B. Kosinus-\u00c4hnlichkeit) werden die Aliase daraufhin bewertet und nach Rang geordnet.<\/p>\n<p>Bei den neu hinzugef\u00fcgten Optionen f\u00fcr die Duplikaterkennung kuratiert der TF-IDF-basierte Resolver verschiedene N-Gramm-Eigenschaften (d.\u00a0h. oberfl\u00e4chliche Texteigenschaften), bevor er die Kosinus-\u00c4hnlichkeiten anhand der d\u00fcnnbesetzten Vektoren berechnet. Ein Resolver auf Basis vorab trainierter Worteinbettung hingegen gleicht unter Verwendung der Kosinus-\u00c4hnlichkeit von vollbesetzten Vektorrepr\u00e4sentationen des Textes ab.<\/p>\n<p>Die Nutzung vorab trainierter Worteinbettung f\u00fcr die Duplikaterkennung hat gegen\u00fcber anderen Ans\u00e4tzen einige Vorteile. Sie erm\u00f6glicht beispielsweise semantisches Verst\u00e4ndnis von Text ohne die Notwendigkeit umfassend bef\u00fcllter Whitelists (z.\u00a0B. ist \u201ehinter den Erwartungen zur\u00fcckgeblieben\u201c gleichwertig mit \u201eschlechte Leistung\u201c) und bietet einen einfachen \u00dcbergang zur mehrsprachigen Duplikaterkennung (z. B. die Inferenz, dass \u201eDritte\u201c auf Deutsch dasselbe ist, wie \u201ethird\u201c auf Englisch\u201c). Jedoch ist die vorab trainierte Worteinbettung bei Diskrepanzen zwischen Vorabtraining und Inferenz, wie beispielsweise unterschiedlich langen Texteingaben, im Nachteil. Zudem kann die Inferenz bei Worteinbettungs-Modellen wegen den zugrundeliegenden Berechnungen mit vollbesetzten Vektoren l\u00e4nger dauern als bei anderen Optionen. Dennoch k\u00f6nnen bei entsprechender Feineinstellung Worteinbettungs-Modelle anderen haupts\u00e4chlich auf oberfl\u00e4chlichen Texteigenschaften basierenden Resolver-Optionen \u00fcberlegen sein.<\/p>\n<p>Nachstehende Analyse vergleicht Resolver auf Basis vorab trainierter Worteinbettung mit Elasticsearch und TF-IDF-Resolvern. Die f\u00fcr diesen Vergleich kuratierten Datens\u00e4tze umfassen sowohl oberfl\u00e4chlichen Textabgleich als auch semantischen Abgleich.<\/p>\n<h2><strong>Leistung unterschiedlicher Resolver<\/strong><\/h2>\n<p>Versuche mit unterschiedlichen intern kuratierten Datens\u00e4tzen ergaben f\u00fcr die verschiedenen Resolver folgende durchschnittliche Leistungen bei der Duplikaterkennung kurzer Texte. Die beste Retrieval-Bewertung ist hier als Genauigkeitswert angegeben:<\/p>\n<div id=\"attachment_18920\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-18920\" class=\"wp-image-18920 size-full\" src=\"https:\/\/storage.googleapis.com\/wx-blg-prd-gcs\/wp-content\/uploads\/1\/2021\/07\/Performances-of-different-resolvers.png\" alt=\"Leistung unterschiedlicher Resolver\" width=\"720\" height=\"288\" srcset=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/07\/Performances-of-different-resolvers.png 720w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/07\/Performances-of-different-resolvers-300x120.png 300w\" sizes=\"auto, (max-width: 720px) 100vw, 720px\" \/><p id=\"caption-attachment-18920\" class=\"wp-caption-text\"><br \/>\n<\/a> Leistungen unterschiedlicher Resolver<\/p><\/div>\n<p>\u00a0<\/p>\n<p>Die vorab trainierten BERT-Varianten sind als Teil von <a href=\"https:\/\/huggingface.co\/sentence-transformers\">Huggingface sentence-transformers<\/a> verf\u00fcgbar; die Grafik bildet nur die Bewertungen der f\u00fcnf leistungsst\u00e4rksten Varianten ab. Vorab trainierte Worteinbettungs-Modelle wie fastText weisen im Allgemeinen eine schlechtere Leistung auf als BERT-Einbettungsmodelle oder TF-IDF-basierte Resolver. Diese schlechten Leistungen k\u00f6nnen auf die Dom\u00e4nenverlagerung und mangelnde Feineinstellung zur\u00fcckzuf\u00fchren sein.<\/p>\n<p>Eine weiterf\u00fchrende Analyse mit verschiedenen Konfigurationen der leistungsst\u00e4rksten BERT-Variante (\u201e<em>distilbert-base-nli-stsb-mean-tokens\u201c<\/em>) liefert folgende Ergebnisse:<\/p>\n<div id=\"attachment_18930\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-18930\" class=\"wp-image-18930 size-full\" src=\"https:\/\/storage.googleapis.com\/wx-blg-prd-gcs\/wp-content\/uploads\/1\/2021\/07\/Accuracy-and-BERT-variant.png\" alt=\"Genauigkeit und BERT-Variante\" width=\"720\" height=\"336\" srcset=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/07\/Accuracy-and-BERT-variant.png 720w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/07\/Accuracy-and-BERT-variant-300x140.png 300w\" sizes=\"auto, (max-width: 720px) 100vw, 720px\" \/><p id=\"caption-attachment-18930\" class=\"wp-caption-text\"><br \/>\n<\/a> Leistungen verschiedener Konfigurationen der leistungsst\u00e4rksten BERT-Variante<\/p><\/div>\n<p>\u00a0<\/p>\n<p>Die Ergebnisse zeigen, dass alternative \u00c4hnlichkeitsbewertungen wie <a href=\"https:\/\/github.com\/Tiiiger\/bert_score\">BERTScore<\/a> nicht wettbewerbsf\u00e4hig sind. Zudem f\u00fchrt die Verwendung der Kosinus-\u00c4hnlichkeit bei Verkn\u00fcpfung unterschiedlicher Ebenen des BERT-Modells zu einem Leistungszuwachs, der der Leistung von Elasticsearch entspricht. Das ist naheliegend, da unterschiedliche Ebenen von BERT erg\u00e4nzende Informationen erfassen k\u00f6nnen. Selbst nach <a href=\"https:\/\/pytorch.org\/tutorials\/intermediate\/dynamic_quantization_bert_tutorial.html\">Quantisierung<\/a> der BERT-Variante auf geringere Speicherauslastung und geringere Zeitkomplexit\u00e4t verringert sich die Leistung nur um 2\u20133\u00a0%.<\/p>\n<p>Zudem liegt die Leistung des TF-IDF-basierten Resolvers bei Beurteilung anhand von zufallsverrauschten Daten mit Tippfehlern in der Eingabe \u00fcber der der anderen Optionen. Dies kann durch die vielf\u00e4ltigen N-Gramme begr\u00fcndet sein, die von diesem Resolver erfasst werden. (F\u00fcr diesen Versuch wurden Whitelist-Texte als Testinstanzen wiederverwendet und Tippfehler eingef\u00fchrt. Daher ist bei 0\u00a0% Rauschen eine Genauigkeit von 100\u00a0% zu sehen, da alle Testobjekte auch in den Whitelists vorliegen!)<\/p>\n<div id=\"attachment_18940\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-18940\" class=\"wp-image-18940 size-full\" src=\"https:\/\/storage.googleapis.com\/wx-blg-prd-gcs\/wp-content\/uploads\/1\/2021\/07\/Performances-on-misspellings-induced-text-matching.png\" alt=\"Leistung bei Abgleich von Text mit eingef\u00fchrten Tippfehlern\" width=\"720\" height=\"396\" srcset=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/07\/Performances-on-misspellings-induced-text-matching.png 720w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/07\/Performances-on-misspellings-induced-text-matching-300x165.png 300w\" sizes=\"auto, (max-width: 720px) 100vw, 720px\" \/><p id=\"caption-attachment-18940\" class=\"wp-caption-text\"><br \/>\n<\/a> Leistung bei Abgleich von Text mit eingef\u00fchrten Tippfehlern<\/p><\/div>\n<p>\u00a0<\/p>\n<p>Abschlie\u00dfend zeigt folgende Grafik die unterschiedlichen Zeitkomplexit\u00e4ten f\u00fcr die Inferenz bei den verschiedenen Resolver-Optionen:<\/p>\n<p><a href=\"https:\/\/storage.googleapis.com\/wx-blg-prd-gcs\/wp-content\/uploads\/1\/2021\/07\/Time-complexities-accross-different-resover-choices.png\"><br \/>\n  <img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-18950\" src=\"https:\/\/storage.googleapis.com\/wx-blg-prd-gcs\/wp-content\/uploads\/1\/2021\/07\/Time-complexities-accross-different-resover-choices.png\" alt=\"Zeitkomplexit\u00e4ten unterschiedlicher Resolver\" width=\"884\" height=\"262\" srcset=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/07\/Time-complexities-accross-different-resover-choices.png 884w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/07\/Time-complexities-accross-different-resover-choices-300x89.png 300w, https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/07\/Time-complexities-accross-different-resover-choices-768x228.png 768w\" sizes=\"auto, (max-width: 884px) 100vw, 884px\" \/><br \/>\n<\/a><\/p>\n<p>\u00a0<\/p>\n<p>(Von links nach rechts: genaueste BERT, TF-IDF, Elasticsearch) Inferenzzeit pro Objekt bei Messung in unterschiedlich gro\u00dfen Knowledge Bases. Die X-Achse gibt die Gr\u00f6\u00dfe der Knowledge Base an, die Y-Achse die Zeit pro Objekt in Millisekunden. Gelb dargestellt ist die Inferenzzeit f\u00fcr die Kodierung des Eingabetexts und gr\u00fcn die Inferenzzeit f\u00fcr die \u00c4hnlichkeitsberechnung.<\/p>\n<p>Die Zeitkomplexit\u00e4ten von TF-IDF und Elasticsearch sind durchaus vergleichbar, wohingegen die beste BERT-Variante trotz Quantisierung 20 Mal langsamer ist. Dieser Wert verbessert sich zu einer 10-fachen Verlangsamung, wenn die oberen 4 Ebenen nicht verkn\u00fcpft werden, f\u00fchrt jedoch auch zu einer geringeren Genauigkeit.<\/p>\n<h2><strong>Auswahl und Konfiguration eines Resolvers<\/strong><\/h2>\n<p>Die Resolver-Konfigurationen von MindMeld bieten verschiedene konfigurierbare Parameter, je nach verwendetem Resolver. Folgender Ausschnitt f\u00fchrt bei Eingabe in die \u201econfig.py\u201c-Datei einer Anwendung zur Verwendung eines vorab trainierten BERT-Modells Ihrer Wahl von Huggingface:<\/p>\n<p><em>ENTITY_RESOLVER_CONFIG = {<\/em><\/p>\n<p><em>\u00a0\u00a0\u00a0 &#8218;model_type&#8216;: &#8218;resolver&#8216;,<\/em><\/p>\n<p><em>\u00a0\u00a0\u00a0 &#8218;model_settings&#8216;: {<\/em><\/p>\n<p><em>\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 &#8218;resolver_type&#8216;: &#8217;sbert_cosine_similarity&#8216;,<\/em><\/p>\n<p><em>\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 &#8218;pretrained_name_or_abspath&#8216;: &#8218;distilbert-base-nli-stsb-mean-tokens&#8216;,<\/em><\/p>\n<p><em>\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 &#8230;<\/em><\/p>\n<p><em>\u00a0\u00a0\u00a0 }<\/em><\/p>\n<p><em>}<\/em><\/p>\n<p>Durch Modifikation des Parameters \u201eembedder_type\u201c k\u00f6nnen Sie andere Worteinbettungs-Modelle verwenden:<\/p>\n<p><em>ENTITY_RESOLVER_CONFIG = {<\/em><\/p>\n<p><em>\u00a0\u00a0\u00a0 &#8218;model_type&#8216;: &#8218;resolver&#8216;,<\/em><\/p>\n<p><em>\u00a0\u00a0\u00a0 &#8218;model_settings&#8216;: {<\/em><\/p>\n<p><em>\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 &#8218;resolver_type&#8216;: &#8218;embedder_cosine_similarity&#8216;,<\/em><\/p>\n<p><em>\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 &#8218;embedder_type&#8216;: &#8218;glove&#8216;,<\/em><\/p>\n<p><em>\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 \u2026<\/em><\/p>\n<p><em>\u00a0\u00a0\u00a0 }<\/em><\/p>\n<p><em>}<\/em><\/p>\n<p>Sie k\u00f6nnen bei Verwendung eines Worteinbettungs-Modells auch Laufzeitkonfigurationen wie \u201ebatch_size\u201c und modellspezifische Konfigurationen angeben. Um einen TF-IDF-basierten Resolver zu laden, gehen Sie wie folgt vor:<\/p>\n<p><em>ENTITY_RESOLVER_CONFIG = {<\/em><\/p>\n<p><em>\u00a0\u00a0\u00a0 &#8218;model_type&#8216;: &#8218;resolver&#8216;,<\/em><\/p>\n<p><em>\u00a0\u00a0\u00a0 &#8218;model_settings&#8216;: {<\/em><\/p>\n<p><em>\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 &#8218;resolver_type&#8216;: &#8218;tfidf_cosine_similarity&#8216;,<\/em><\/p>\n<p><em>\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 &#8230;<\/em><\/p>\n<p><em>\u00a0\u00a0\u00a0 }<\/em><\/p>\n<p><em>}<\/em><\/p>\n<p>F\u00fcr jedes Objekt in der KB werden spezielle Worteinbettungen, die die mittlere\/maximale Menge der Worteinbettungen aller Aliase darstellen, ebenfalls berechnet und bei entsprechender Konfiguration f\u00fcr die Duplikaterkennung verwendet. Solche speziellen Worteinbettungen verbessern h\u00e4ufig die Genauigkeit von Resolvern bei nur marginalen Auswirkungen auf die Rechnerauslastung. Vollst\u00e4ndige Details und alle konfigurierbaren Optionen finden Sie im Abschnitt \u201eConfigurations\u201c (Konfigurationen) in der <a href=\"https:\/\/www.mindmeld.com\/docs\/userguide\/entity_resolver.html\">offiziellen Dokumentation<\/a>.<\/p>\n<h2><strong>Abschlie\u00dfende Gedanken und Ausblick<\/strong><\/h2>\n<p>Insgesamt wird der Elasticsearch-basierte Resolver empfohlen, falls kein spezielles Szenario seiner Anwendung entgegensteht. Verwenden Sie als Ersatzl\u00f6sung Resolver auf Basis von Worteinbettungs-Modellen, wenn ein eher semantischer Abgleich n\u00f6tig ist, oder einen TF-IDF-basierten Resolver, wenn das nicht der Fall ist. Das Duplikaterkennungsmodul in MindMeld bietet bislang keine APIs f\u00fcr das Benchmarking des optimalen Resolvers f\u00fcr Ihre Anwendung. Die Unterst\u00fctzung daf\u00fcr ist aber bereits geplant, ebenso wie M\u00f6glichkeiten zur Feineinstellung von auf Worteinbettungs-Modellen basierenden Resolvern. Bleiben Sie auf dem Laufenden.<\/p>\n<p>\u00a0<\/p>\n<p><a href=\"https:\/\/www.webex.com\/video-conferencing\">Bei Webex anmelden<\/a><\/p>\n<p>Besuchen Sie unsere <a href=\"https:\/\/www.webex.com\/\">Homepage<\/a> oder <a href=\"https:\/\/www.webex.com\/contact-sales.html\">kontaktieren Sie uns<\/a> direkt, wenn Sie Hilfe ben\u00f6tigen.<\/p>\n<p><span data-ccp-props=\"{&quot;201341983&quot;:0,&quot;335559739&quot;:160,&quot;335559740&quot;:259}\"><br \/>\n  <a href=\"https:\/\/www.webex.com\/?utm_source=Influence&#038;utm_medium=EarnedContent&#038;utm_campaign=FutureOfWork\">Klicken Sie hier<\/a>, um mehr \u00fcber die Angebote von Webex zu erfahren und sich f\u00fcr ein kostenloses Konto anzumelden.<\/span><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Einf\u00fchrung Die Duplikaterkennung ist der Vorgang der eindeutigen Zuordnung eines Objekts. Dabei wird eine textbasierte Nennung dem geeignetsten realen Namen [&hellip;]<\/p>\n","protected":false},"author":5432,"featured_media":18901,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"inline_featured_image":false,"footnotes":""},"categories":[1529],"tags":[2455],"class_list":["post-20291","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-maschinenbau","tag-pstn-de"],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.8 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Welche Neuerungen bietet MindMeld hinsichtlich Duplikaterkennung? | Webex Blog<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/blog.webex.com\/de\/uncategorized-de\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\/\" \/>\n<meta property=\"og:locale\" content=\"de_DE\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Welche Neuerungen bietet MindMeld hinsichtlich Duplikaterkennung? | Webex Blog\" \/>\n<meta property=\"og:description\" content=\"Einf\u00fchrung Die Duplikaterkennung ist der Vorgang der eindeutigen Zuordnung eines Objekts. Dabei wird eine textbasierte Nennung dem geeignetsten realen Namen [&hellip;]\" \/>\n<meta property=\"og:url\" content=\"https:\/\/blog.webex.com\/de\/uncategorized-de\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\/\" \/>\n<meta property=\"og:site_name\" content=\"Webex Blog\" \/>\n<meta property=\"article:published_time\" content=\"2021-07-21T21:48:10+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2021-08-03T14:30:15+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/07\/Whats-new-with-entity-resolution-in-MindMeld.png\" \/>\n\t<meta property=\"og:image:width\" content=\"975\" \/>\n\t<meta property=\"og:image:height\" content=\"554\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/png\" \/>\n<meta name=\"author\" content=\"Sai Muralidhar Jayanthi\" \/>\n<meta name=\"twitter:label1\" content=\"Verfasst von\" \/>\n\t<meta name=\"twitter:data1\" content=\"Sai Muralidhar Jayanthi\" \/>\n\t<meta name=\"twitter:label2\" content=\"Gesch\u00e4tzte Lesezeit\" \/>\n\t<meta name=\"twitter:data2\" content=\"7 Minuten\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\\\/\\\/blog.webex.com\\\/de\\\/uncategorized-de\\\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\\\/#article\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/blog.webex.com\\\/de\\\/uncategorized-de\\\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\\\/\"},\"author\":{\"name\":\"Sai Muralidhar Jayanthi\",\"@id\":\"https:\\\/\\\/blog.webex.com\\\/es\\\/#\\\/schema\\\/person\\\/c17b8b06aadbba270b504e0115e70461\"},\"headline\":\"Welche Neuerungen bietet MindMeld hinsichtlich Duplikaterkennung?\",\"datePublished\":\"2021-07-21T21:48:10+00:00\",\"dateModified\":\"2021-08-03T14:30:15+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\\\/\\\/blog.webex.com\\\/de\\\/uncategorized-de\\\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\\\/\"},\"wordCount\":1378,\"commentCount\":0,\"image\":{\"@id\":\"https:\\\/\\\/blog.webex.com\\\/de\\\/uncategorized-de\\\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/blog.webex.com\\\/wp-content\\\/uploads\\\/2021\\\/07\\\/Whats-new-with-entity-resolution-in-MindMeld.png\",\"keywords\":[\"PSTN\"],\"articleSection\":[\"Maschinenbau\"],\"inLanguage\":\"de-DE\",\"potentialAction\":[{\"@type\":\"CommentAction\",\"name\":\"Comment\",\"target\":[\"https:\\\/\\\/blog.webex.com\\\/de\\\/uncategorized-de\\\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\\\/#respond\"]}]},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/blog.webex.com\\\/de\\\/uncategorized-de\\\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\\\/\",\"url\":\"https:\\\/\\\/blog.webex.com\\\/de\\\/uncategorized-de\\\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\\\/\",\"name\":\"Welche Neuerungen bietet MindMeld hinsichtlich Duplikaterkennung? | Webex Blog\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/blog.webex.com\\\/es\\\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\\\/\\\/blog.webex.com\\\/de\\\/uncategorized-de\\\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\\\/#primaryimage\"},\"image\":{\"@id\":\"https:\\\/\\\/blog.webex.com\\\/de\\\/uncategorized-de\\\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/blog.webex.com\\\/wp-content\\\/uploads\\\/2021\\\/07\\\/Whats-new-with-entity-resolution-in-MindMeld.png\",\"datePublished\":\"2021-07-21T21:48:10+00:00\",\"dateModified\":\"2021-08-03T14:30:15+00:00\",\"author\":{\"@id\":\"https:\\\/\\\/blog.webex.com\\\/es\\\/#\\\/schema\\\/person\\\/c17b8b06aadbba270b504e0115e70461\"},\"breadcrumb\":{\"@id\":\"https:\\\/\\\/blog.webex.com\\\/de\\\/uncategorized-de\\\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\\\/#breadcrumb\"},\"inLanguage\":\"de-DE\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/blog.webex.com\\\/de\\\/uncategorized-de\\\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\\\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"de-DE\",\"@id\":\"https:\\\/\\\/blog.webex.com\\\/de\\\/uncategorized-de\\\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\\\/#primaryimage\",\"url\":\"https:\\\/\\\/blog.webex.com\\\/wp-content\\\/uploads\\\/2021\\\/07\\\/Whats-new-with-entity-resolution-in-MindMeld.png\",\"contentUrl\":\"https:\\\/\\\/blog.webex.com\\\/wp-content\\\/uploads\\\/2021\\\/07\\\/Whats-new-with-entity-resolution-in-MindMeld.png\",\"width\":975,\"height\":554,\"caption\":\"What's new with entity resolution in MindMeld?\"},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/blog.webex.com\\\/de\\\/uncategorized-de\\\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\\\/\\\/blog.webex.com\\\/de\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Welche Neuerungen bietet MindMeld hinsichtlich Duplikaterkennung?\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/blog.webex.com\\\/es\\\/#website\",\"url\":\"https:\\\/\\\/blog.webex.com\\\/es\\\/\",\"name\":\"Webex Blog\",\"description\":\"Webex by Cisco powers collaboration through industry-leading video conferencing, cloud calling and contact center solutions\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/blog.webex.com\\\/es\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"de-DE\"},{\"@type\":\"Person\",\"@id\":\"https:\\\/\\\/blog.webex.com\\\/es\\\/#\\\/schema\\\/person\\\/c17b8b06aadbba270b504e0115e70461\",\"name\":\"Sai Muralidhar Jayanthi\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"de-DE\",\"@id\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/eaeccf28b3a3e54c571e3f47449e775311afe118202a5f99ec4ca3d94e2d7aea?s=96&d=wp_user_avatar&r=g\",\"url\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/eaeccf28b3a3e54c571e3f47449e775311afe118202a5f99ec4ca3d94e2d7aea?s=96&d=wp_user_avatar&r=g\",\"contentUrl\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/eaeccf28b3a3e54c571e3f47449e775311afe118202a5f99ec4ca3d94e2d7aea?s=96&d=wp_user_avatar&r=g\",\"caption\":\"Sai Muralidhar Jayanthi\"},\"description\":\"Sai Muralidhar Jayanthi is a Machine Learning Engineer on the MindMeld team at Cisco, where he builds production-level conversational interfaces. Specifically, he works on enhancing core functionalities of Natural Language Processing pipelines such as entity linking and question answering, and is passionate about developing ML algorithms that better suit low-resource and multilingual settings. Prior to MindMeld, Sai completed his Masters in Intelligent Information Systems from Carnegie Mellon University.\",\"sameAs\":[\"https:\\\/\\\/www.linkedin.com\\\/in\\\/sai-murali\\\/\"],\"url\":\"https:\\\/\\\/blog.webex.com\\\/de\\\/contributors\\\/sjayanthi\\\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Welche Neuerungen bietet MindMeld hinsichtlich Duplikaterkennung? | Webex Blog","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/blog.webex.com\/de\/uncategorized-de\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\/","og_locale":"de_DE","og_type":"article","og_title":"Welche Neuerungen bietet MindMeld hinsichtlich Duplikaterkennung? | Webex Blog","og_description":"Einf\u00fchrung Die Duplikaterkennung ist der Vorgang der eindeutigen Zuordnung eines Objekts. Dabei wird eine textbasierte Nennung dem geeignetsten realen Namen [&hellip;]","og_url":"https:\/\/blog.webex.com\/de\/uncategorized-de\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\/","og_site_name":"Webex Blog","article_published_time":"2021-07-21T21:48:10+00:00","article_modified_time":"2021-08-03T14:30:15+00:00","og_image":[{"width":975,"height":554,"url":"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/07\/Whats-new-with-entity-resolution-in-MindMeld.png","type":"image\/png"}],"author":"Sai Muralidhar Jayanthi","twitter_misc":{"Verfasst von":"Sai Muralidhar Jayanthi","Gesch\u00e4tzte Lesezeit":"7 Minuten"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/blog.webex.com\/de\/uncategorized-de\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\/#article","isPartOf":{"@id":"https:\/\/blog.webex.com\/de\/uncategorized-de\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\/"},"author":{"name":"Sai Muralidhar Jayanthi","@id":"https:\/\/blog.webex.com\/es\/#\/schema\/person\/c17b8b06aadbba270b504e0115e70461"},"headline":"Welche Neuerungen bietet MindMeld hinsichtlich Duplikaterkennung?","datePublished":"2021-07-21T21:48:10+00:00","dateModified":"2021-08-03T14:30:15+00:00","mainEntityOfPage":{"@id":"https:\/\/blog.webex.com\/de\/uncategorized-de\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\/"},"wordCount":1378,"commentCount":0,"image":{"@id":"https:\/\/blog.webex.com\/de\/uncategorized-de\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\/#primaryimage"},"thumbnailUrl":"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/07\/Whats-new-with-entity-resolution-in-MindMeld.png","keywords":["PSTN"],"articleSection":["Maschinenbau"],"inLanguage":"de-DE","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/blog.webex.com\/de\/uncategorized-de\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/blog.webex.com\/de\/uncategorized-de\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\/","url":"https:\/\/blog.webex.com\/de\/uncategorized-de\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\/","name":"Welche Neuerungen bietet MindMeld hinsichtlich Duplikaterkennung? | Webex Blog","isPartOf":{"@id":"https:\/\/blog.webex.com\/es\/#website"},"primaryImageOfPage":{"@id":"https:\/\/blog.webex.com\/de\/uncategorized-de\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\/#primaryimage"},"image":{"@id":"https:\/\/blog.webex.com\/de\/uncategorized-de\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\/#primaryimage"},"thumbnailUrl":"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/07\/Whats-new-with-entity-resolution-in-MindMeld.png","datePublished":"2021-07-21T21:48:10+00:00","dateModified":"2021-08-03T14:30:15+00:00","author":{"@id":"https:\/\/blog.webex.com\/es\/#\/schema\/person\/c17b8b06aadbba270b504e0115e70461"},"breadcrumb":{"@id":"https:\/\/blog.webex.com\/de\/uncategorized-de\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\/#breadcrumb"},"inLanguage":"de-DE","potentialAction":[{"@type":"ReadAction","target":["https:\/\/blog.webex.com\/de\/uncategorized-de\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\/"]}]},{"@type":"ImageObject","inLanguage":"de-DE","@id":"https:\/\/blog.webex.com\/de\/uncategorized-de\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\/#primaryimage","url":"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/07\/Whats-new-with-entity-resolution-in-MindMeld.png","contentUrl":"https:\/\/blog.webex.com\/wp-content\/uploads\/2021\/07\/Whats-new-with-entity-resolution-in-MindMeld.png","width":975,"height":554,"caption":"What's new with entity resolution in MindMeld?"},{"@type":"BreadcrumbList","@id":"https:\/\/blog.webex.com\/de\/uncategorized-de\/welche-neuerungen-bietet-mindmeld-hinsichtlich-duplikaterkennung\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/blog.webex.com\/de\/"},{"@type":"ListItem","position":2,"name":"Welche Neuerungen bietet MindMeld hinsichtlich Duplikaterkennung?"}]},{"@type":"WebSite","@id":"https:\/\/blog.webex.com\/es\/#website","url":"https:\/\/blog.webex.com\/es\/","name":"Webex Blog","description":"Webex by Cisco powers collaboration through industry-leading video conferencing, cloud calling and contact center solutions","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/blog.webex.com\/es\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"de-DE"},{"@type":"Person","@id":"https:\/\/blog.webex.com\/es\/#\/schema\/person\/c17b8b06aadbba270b504e0115e70461","name":"Sai Muralidhar Jayanthi","image":{"@type":"ImageObject","inLanguage":"de-DE","@id":"https:\/\/secure.gravatar.com\/avatar\/eaeccf28b3a3e54c571e3f47449e775311afe118202a5f99ec4ca3d94e2d7aea?s=96&d=wp_user_avatar&r=g","url":"https:\/\/secure.gravatar.com\/avatar\/eaeccf28b3a3e54c571e3f47449e775311afe118202a5f99ec4ca3d94e2d7aea?s=96&d=wp_user_avatar&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/eaeccf28b3a3e54c571e3f47449e775311afe118202a5f99ec4ca3d94e2d7aea?s=96&d=wp_user_avatar&r=g","caption":"Sai Muralidhar Jayanthi"},"description":"Sai Muralidhar Jayanthi is a Machine Learning Engineer on the MindMeld team at Cisco, where he builds production-level conversational interfaces. Specifically, he works on enhancing core functionalities of Natural Language Processing pipelines such as entity linking and question answering, and is passionate about developing ML algorithms that better suit low-resource and multilingual settings. Prior to MindMeld, Sai completed his Masters in Intelligent Information Systems from Carnegie Mellon University.","sameAs":["https:\/\/www.linkedin.com\/in\/sai-murali\/"],"url":"https:\/\/blog.webex.com\/de\/contributors\/sjayanthi\/"}]}},"_links":{"self":[{"href":"https:\/\/blog.webex.com\/de\/wp-json\/wp\/v2\/posts\/20291","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.webex.com\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.webex.com\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.webex.com\/de\/wp-json\/wp\/v2\/users\/5432"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.webex.com\/de\/wp-json\/wp\/v2\/comments?post=20291"}],"version-history":[{"count":0,"href":"https:\/\/blog.webex.com\/de\/wp-json\/wp\/v2\/posts\/20291\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blog.webex.com\/de\/wp-json\/wp\/v2\/media\/18901"}],"wp:attachment":[{"href":"https:\/\/blog.webex.com\/de\/wp-json\/wp\/v2\/media?parent=20291"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.webex.com\/de\/wp-json\/wp\/v2\/categories?post=20291"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.webex.com\/de\/wp-json\/wp\/v2\/tags?post=20291"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}