Taalmodel

Vanaf testwiki
Weergawe deur imported>Odriskelmac11 op 16:11, 18 Desember 2024
(verskil) ← Ouer weergawe | Huidige weergawe (verskil) | Nuwer weergawe → (verskil)
Gaan na navigasie Gaan na soektog

'n Taalmodel is 'n tipe masjienleermodel wat opgelei is om die waarskynlikheidsverspreiding van woorde in natuurlike taal te voorspel, gebaseer op die konteks van die gegewe teks.[1] In wese probeer dit om die mees geskikte volgende woord te bepaal om 'n leë spasie in 'n sin in te vul, met die fokus op hoe woorde gebruik word op 'n manier soortgelyk aan menslike skryfwerk.

Taalmodelle is fundamentele komponente van natuurlike taalverwerking (NLP) omdat dit masjiene in staat stel om menslike taal te verstaan, te genereer en te ontleed. Hulle word opgelei met behulp van groot datastelle van teks, soos versamelings van boeke of artikels, en gebruik die patrone wat hulle uit hierdie opleidingsdata leer om die volgende woord in 'n sin te voorspel of nuwe teks te genereer wat grammatikaal korrek en semanties koherent is

Gebruike

Taalmodelle is nuttig vir 'n verskeidenheid probleme in rekenaarlinguistiek; vanaf aanvanklike toepassings in spraakherkenning[2] om te verseker dat onsinnige (d.w.s. lae-waarskynlikheid) woordreekse nie voorspel word nie, vir wyer gebruik in masjienvertaling[3] (bv. evaluasie van kandidaatvertalings), natuurlike taalgenerering (generering van meer mensagtige teks), woordsoortetikettering, ontleding,[3] optiese karakterherkenning, handskrifherkenning,[4] grammatika-induksie,[5] inligtingherwinning,[6][7] en ander toepassings.

Taalmodelle word gebruik in inligtingherwinning in die navraagwaarskynlikheidsmodel. Daar word 'n aparte taalmodel met elke dokument in 'n versameling geassosieer. Dokumente word gerangskik op grond van die waarskynlikheid van die navraag Q in die dokument se taalmodel: Md: P(QMd). Gewoonlik word die unigram-taalmodel vir hierdie doel gebruik.

Gegewe enige volgorde van woorde van lengte Sjabloon:Mvar, sal ‘n taalmodel ‘n waarskynlikheid P(w1,,wm) aan die hele volgorde toewys. Taalmodelle genereer waarskynlikhede deur opleiding op tekskorpusse in een of baie tale. Gegewe dat tale gebruik kan word om 'n oneindige verskeidenheid geldige sinne uit te druk (die eienskap van digitale oneindigheid), staan taalmodellering voor die probleem om nie-nul waarskynlikhede toe te ken aan linguisties geldige rye wat dalk nooit in die opleidingsdata teëgekom kan word nie. Verskeie modelleringsbenaderings is ontwerp om hierdie probleem te oorkom, soos die toepassing van die Markov-eienskap of die gebruik van neurale argitekture soos herhalende neurale netwerke of transformators.

Tipes

Die modelle kan in twee kategorieë verdeel word: "Suiwer statistiese modelle" en "Neurale modelle". Elkeen van hierdie kategorieë het hul eie subkategorieë.

Suiwer statistiese modelle

Woord n-gram

Hierdie model is gebaseer op 'n aanname dat die waarskynlikheid van die volgende woord in 'n ry slegs afhang van 'n vaste grootte venster van vorige woorde.

Eksponensieel

Maksimum entropietaalmodelle kodeer die verhouding tussen 'n woord en die n-gram-geskiedenis deur gebruik te maak van kenmerkfunksies.

Skip-gram model

Skip-gram-taalmodel is 'n poging om die data-ylbaarheidsprobleem wat voorafgaande (d.w.s. woord n-gram-taalmodel) teëgekom het, te oorkom. Woorde wat in 'n inbeddingsvektor voorgestel word, was nie noodwendig meer opeenvolgend nie, maar kan gapings laat wat oorgeslaan word.[8]

Neurale modelle

Herhalende neurale netwerk (RNN)

Deurlopende voorstellings of inbeddings van woorde word geproduseer in herhalende neurale netwerk-gebaseerde taalmodelle (ook bekend as kontinue ruimtetaalmodelle).[9]

Groot taalmodelle (GTM'e)

'n Groot taalmodel (GTM) is 'n taalmodel wat opmerklik is vir sy vermoë om algemene doeltaalgenerering en -begrip te bereik.

Verwysings

Sjabloon:Verwysings

Sjabloon:Normdata

  1. Sjabloon:Cite book
  2. Kuhn, Roland, and Renato De Mori. "A cache-based natural language model for speech recognition." IEEE transactions on pattern analysis and machine intelligence 12.6 (1990): 570-583.
  3. 3,0 3,1 Andreas, Jacob, Andreas Vlachos, and Stephen Clark. "Semantic parsing as machine translation." Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2013.
  4. Pham, Vu, et al. "Dropout improves recurrent neural networks for handwriting recognition." 2014 14th International Conference on Frontiers in Handwriting Recognition. IEEE, 2014.
  5. Htut, Phu Mon, Kyunghyun Cho, and Samuel R. Bowman. "Grammar induction with neural language models: An unusual replication." arXiv preprint arXiv:1808.10000 (2018).
  6. Sjabloon:Cite conference
  7. Sjabloon:Cite conference
  8. Sjabloon:Cite journal
  9. Sjabloon:Cite web