Definisjon av disambiguation in Language Studies

I lingvistikk, disambiguation er prosessen med å bestemme hvilken betydning av en ord blir brukt i en bestemt kontekst. Også kjent som leksikalsk disambiguering.

I datalingvistikk kalles denne diskriminerende prosessen ord-sans disambiguation (WSD).

Eksempler og observasjoner

«Det har seg slik at vår kommunikasjon, i forskjellige språk på samme måte lar den samme ordformen brukes til å bety forskjellige ting i individuelle kommunikative transaksjoner. Konsekvensen er at man må finne ut, i en bestemt transaksjon, den tiltenkte betydningen av et gitt ord blant dets potensielt assosierte sanser. Mens uklarheter som oppstår fra slike flere form-betydende assosiasjoner er på leksikalsk nivå, må de ofte løses ved hjelp av en større kontekst fra diskurs legge inn ordet. Derfor kunne de forskjellige betydningene av ordet "tjeneste" bare skilles fra hverandre hvis man kunne se forbi selve ordet, som ved å kontrastere "den spillerens service på Wimbledon' med 'kelnerens service i Sheraton.' Denne prosessen med å identifisere ordbetydninger i en diskurs er generelt kjent som

instagram viewer

ordforstand disambiguation (WSD)." (Oi Yee Kwong, Nye perspektiver på beregningsmessige og kognitive strategier for disambiguation av ordsans. Springer, 2013)

Leksical disambiguation and Word-Sense Disambiguation (WSD)

"Leksikalsk disambiguation i sin bredeste definisjon er intet mindre enn å bestemme betydningen av hvert ord i kontekst, som ser ut til å være en stort sett ubevisst prosess hos mennesker. Som et beregningsproblem beskrives det ofte som 'AI-komplett', det vil si et problem hvis løsning forutsetter en løsning for å fullføre naturlig språk forståelse eller sunn fornuft resonnement (Ide og Véronis 1998).

"I feltet datalingvistikk kalles problemet generelt ordsans-disambiguation (WSD) og er definert som problemet med beregningsmessig å bestemme hvilken "sans" av et ord som aktiveres ved bruk av ordet i et bestemt kontekst. WSD er i hovedsak en klassifiseringsoppgave: ordsanser er klassene, konteksten gir bevis, og hver forekomst av et ord er tilordnet en eller flere av dets mulige klasser basert på bevis. Dette er den tradisjonelle og vanlige karakteriseringen av WSD som ser det som en eksplisitt prosess med disambiguering med hensyn til en fast oversikt over ordsanser. Ord antas å ha et begrenset og diskret sett med sanser fra en ordbok, en leksikalsk kunnskapsbase, eller en ontologi (i sistnevnte tilsvarer betydninger begreper som et ord leksikaliserer). Applikasjonsspesifikke varelager kan også brukes. For eksempel, i en maskinoversettelse (MT)-innstilling, kan man behandle ordoversettelser som ordsanser, en tilnærming som blir stadig mer gjennomførbar på grunn av tilgjengeligheten av store flerspråklige parallell korpus som kan tjene som treningsdata. Den faste beholdningen av tradisjonell WSD reduserer kompleksiteten til problemet, men alternative felt finnes.. .." (Eneko Agirre og Philip Edmonds, "Introduksjon." Disambiguation av ordforstand: Algoritmer og applikasjoner. Springer, 2007)

Homonymi og disambiguation

"Leksikalsk disambiguation er godt egnet spesielt for tilfeller av homonymifor eksempel en forekomst av bass må kartlegges på en av de leksikalske elementene bass₁ eller bass₂, avhengig av meningen.

«Leksikalsk disambiguering innebærer et kognitivt valg og er en oppgave som hemmer forståelsesprosesser. Det bør skilles fra prosesser som fører til en differensiering av ordsanser. Den førstnevnte oppgaven utføres ganske pålitelig også uten mye kontekstuell informasjon, mens sistnevnte ikke er det (jf. Veronis 1998, 2001). Det har også vist seg at homonyme ord, som krever disambiguering, bremser leksikalsk tilgang, mens polysemous ord, som aktiverer en rekke ordsanser, øker leksikalsk tilgang (Rodd e.a. 2002).

"Men både den produktive modifikasjonen av semantiske verdier og det enkle valget mellom leksikalsk forskjellige elementer har til felles at de krever ytterligere ikke-leksikalsk informasjon." (Peter Bosch, "Productivity, Polysemy, and Predicate Indexicality." Logikk, språk og beregning: 6. internasjonale Tbilisi-symposium om logikk, språk og beregning, red. av Balder D. ten Cate og Henk W. Zeevat. Springer, 2007)

Disambiguation av leksikalsk kategori og prinsippet om sannsynlighet

"Corley og Crocker (2000) presenterer en bred dekningsmodell av leksikalsk kategoridisambiguation basert på Prinsippet om sannsynlighet. Spesielt foreslår de det for en setning som består av ord w₀... w_n, bruker setningsbehandleren det mest sannsynlige del av en tale sekvens t₀... t_n. Mer spesifikt utnytter modellen deres to enkle sannsynligheter: (Jeg) den betingede sannsynligheten for ord w_Jeg gitt en bestemt del av talen t_Jeg, og (ii) sannsynligheten for t_Jeg gitt forrige del av talen t_i-1. Etter hvert som hvert ord i setningen støtes på, tildeler systemet det den delen av talen t_Jeg, som maksimerer produktet av disse to sannsynlighetene. Denne modellen drar nytte av innsikten som mange syntaktisk tvetydigheter har et leksikalsk grunnlag (MacDonald et al., 1994), som i (3):

(3) Lagerprisene/merkene er billigere enn resten.

"Disse setningene er midlertidig tvetydige mellom en lesning der priser eller gjør at er den hovedverb eller del av en sammensatte substantiv. Etter å ha blitt trent på et stort korpus, forutsier modellen den mest sannsynlige delen av talen for priser, korrekt redegjørelse for det faktum at folk forstår pris som et substantiv men gjør at som et verb (se Crocker & Corley, 2002, og referanser sitert der). Ikke bare står modellen for en rekke disambigueringspreferanser forankret i leksikalsk kategori tvetydighet, forklarer det også hvorfor folk generelt er svært nøyaktige når de løser slike uklarheter." (Matthew W. Crocker, "Rational Models of Comprehension: Adressering av ytelsesparadokset." Det tjueførste århundres psykolingvistikk: Fire hjørnesteiner, red. av Anne Cutler. Lawrence Erlbaum, 2005)