നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ്

വിക്കിപീഡിയ, ഒരു സ്വതന്ത്ര വിജ്ഞാനകോശം.
(Natural language processing എന്ന താളിൽ നിന്നും തിരിച്ചുവിട്ടതു പ്രകാരം)

നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ് (എൻ‌എൽ‌പി) ഭാഷാശാസ്ത്രം[1], കമ്പ്യൂട്ടർ സയൻസ്[2], ഇൻഫർമേഷൻ എഞ്ചിനീയറിംഗ്, ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ്[3] എന്നിവയുടെ ഒരു ഉപഫീൽഡാണ്. കമ്പ്യൂട്ടറുകളും മനുഷ്യന്റെ ഭാഷകളും തമ്മിലുള്ള ഇടപെടലുകളുമായി ബന്ധപ്പെട്ട, പ്രത്യേകിച്ചും വലിയ അളവിൽ സ്വാഭാവിക ഭാഷാ ഡാറ്റ [4]പ്രോസസ്സ് ചെയ്യുന്നതിനും വിശകലനം ചെയ്യുന്നതിനും കമ്പ്യൂട്ടറുകളെ എങ്ങനെ പ്രോഗ്രാം ചെയ്യാം എന്നതിനെ കുറിച്ച ഉള്ള പഠനം ആണ് നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ് (എൻ‌എൽ‌പി). എൻ‌എൽ‌പി മനുഷ്യ ഭാഷകളിൽ നിന്ന് വായിക്കാനും മനസിലാക്കാനും അർത്ഥം നേടാനുമുള്ള കഴിവ് മെഷീനുകൾക്ക് നൽകുന്നു. ഡാറ്റ[4] ലഭിക്കുന്നതിന്റെ മെച്ചപ്പെടുത്തലുകളും കമ്പ്യൂട്ടേഷണൽ പവറിന്റെ [5]വർദ്ധനവും കാരണം ഇന്ന് എൻ‌എൽ‌പി കുതിച്ചുയരുന്നു. ആരോഗ്യ സംരക്ഷണം[6], മാധ്യമങ്ങൾ[7], ധനകാര്യം[8], മാനവ വിഭവശേഷി[9] തുടങ്ങിയ മേഖലകളിൽ അർത്ഥവത്തായ ഫലങ്ങൾ നേടാൻ പരിശീലകരെ ഇത് സഹായിക്കുന്നു.

ഒരു വെബ് പേജിൽ ഉപഭോക്തൃ സേവനം നൽകുന്ന ഒരു ഓട്ടോമേറ്റഡ് ഓൺലൈൻ അസിസ്റ്റന്റ് .ഇത് നാച്ചുറൽ ലാംഗ്വേജ്  പ്രോസസ്സിങ്ങിന്റെ ഒരു ഉദാഹരണം ആണ് .

ഉദാഹരണങ്ങൾ[തിരുത്തുക]

ആളുകൾ ദിവസവും ഉപയോഗിക്കുന്ന എൻ‌ എൽ‌ പിയുടെ ചില ഉദാഹരണങ്ങൾ ഇവയാണ്:

  • അക്ഷരപ്പിശക് പരിശോധന[10]
  • രോഗനിർണയം
  • വ്യാജ വാർത്തകൾ തിരിച്ചറിയുക[11]
  • സ്പാം ഫിൽട്ടറുകൾ[12]
  • സെർച്ച് എഞ്ചിനുകളിലെ[13] അനുബന്ധ കീവേഡുകൾ[14]
  • സിരി,[15] അലക്സാ[16] അല്ലെങ്കിൽ ഗൂഗിൾ അസിസ്റ്റന്റ്[17]

സാധാരണ എൻ‌എൽ‌പി കാര്യങ്ങൾ[തിരുത്തുക]

നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗിൽ സാധാരണയായി ഗവേഷണം ചെയ്യപ്പെടുന്ന ചില ജോലികളുടെ പട്ടികയാണ് ഇനിപ്പറയുന്നത്. ഈ ടാസ്‌ക്കുകളിൽ ചിലതിന് നേരിട്ടുള്ള യഥാർത്ഥ ലോക ആപ്ലിക്കേഷനുകൾ ഉണ്ട്, മറ്റുള്ളവ സാധാരണയായി വലിയ ടാസ്‌ക്കുകൾ പരിഹരിക്കുന്നതിന് സഹായിക്കുന്ന സബ്‌ടാസ്കുകളായി വർത്തിക്കുന്നു.നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗിൽ ജോലികൾ പരസ്പരം ബന്ധപ്പെട്ടിരിക്കുന്നുവെങ്കിലും, സൗകര്യാർത്ഥം അവ വിഭാഗങ്ങളായി തിരിക്കാം.

ടെക്സ്റ്റ്, സ്പീച്ച് പ്രോസസ്സിംഗ്[തിരുത്തുക]

ഒപ്റ്റിക്കൽ ക്യാരക്ടർ റെക്കഗ്നിഷൻ (OCR)[18][തിരുത്തുക]

അച്ചടിച്ച വാചകത്തെ പ്രതിനിധീകരിക്കുന്ന ഒരു ചിത്രം നൽകിയാൽ, അനുബന്ധ വാചകം നിർണ്ണയിക്കുക.

സംഭാഷണ തിരിച്ചറിയൽ ( സ്പീച് റെക്കഗ്നിഷൻ ) [19][തിരുത്തുക]
ഗൂഗിൾ ട്രാൻസ്ലേറ്റ് ഒരു നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ്ഇന്റെ ഉദാഹരണം ആണ്

ഒരു വ്യക്തിയുടെയോ സംസാരിക്കുന്ന ആളുകളുടെയോ ശബ്‌ദ ക്ലിപ്പ് നൽകി, സംഭാഷണത്തിന്റെ വാചക പ്രാതിനിധ്യം നിർണ്ണയിക്കുക.സ്വാഭാവിക സംഭാഷണത്തിൽ തുടർച്ചയായ പദങ്ങൾക്കിടയിൽ താൽക്കാലികമായി നിർത്താനാകില്ല, അതിനാൽ സംഭാഷണ വിഭജനം (സ്പീച് സെഗ്മെന്റഷന്)[20] സംഭാഷണ തിരിച്ചറിയലിന്റെ ഒരു ഉപവിഭാഗമാണ്. മിക്ക സംസാര ഭാഷകളിലും, കോ ആർട്ടിക്കലഷൻ[21] എന്ന് വിളിക്കപ്പെടുന്ന ഒരു പ്രക്രിയയിൽ തുടർച്ചയായ അക്ഷരങ്ങളെ പ്രതിനിധീകരിക്കുന്ന ശബ്ദങ്ങൾ പരസ്പരം കൂടിച്ചേരുന്നു, അതിനാൽ അനലോഗ് സിഗ്നലിനെ[22] വ്യതിരിക്ത പ്രതീകങ്ങളിലേക്ക് പരിവർത്തനം ചെയ്യുന്നത് വളരെ ബുദ്ധിമുട്ടുള്ള പ്രക്രിയയാണ് .

സംഭാഷണ വിഭജനം (സ്പീച് സെഗ്മെന്റഷന്)[20][തിരുത്തുക]

ഒരു വ്യക്തിയുടെയോ സംസാരിക്കുന്ന ആളുകളുടെയോ ശബ്‌ദ ക്ലിപ്പ് നൽകി, അത് വാക്കുകളായി വേർതിരിക്കുക. സ്പീച്ച് റെക്കഗ്നിഷന്റെ[19] ഒരു സബ് ടാസ്‌ക്, സാധാരണ അവയുമായി ഇതിനെ ഗ്രൂപ്പുചെയ്യുന്നു.

ടെക്സ്റ്റ്-ടു-സ്പീച്ച്[23][തിരുത്തുക]

ഒരു വാചകം നൽകി, ആ യൂണിറ്റുകൾ രൂപാന്തരപ്പെടുത്തി ഒരു സംഭാഷണ പ്രാതിനിധ്യം സൃഷ്ടിക്കുക. കാഴ്ചയില്ലാത്തവരെ സഹായിക്കാൻ ടെക്സ്റ്റ്-ടു-സ്പീച്ച് ഉപയോഗിക്കാം.

പദ വിഭജനം (ടോക്കണൈസേഷൻ)[24][തിരുത്തുക]

തുടർച്ചയായ വാചകത്തിന്റെ ഒരു ഭാഗം പ്രത്യേക പദങ്ങളായി വേർതിരിക്കുക. ഇംഗ്ലീഷ് [25]പോലുള്ള ഒരു ഭാഷയെ സംബന്ധിച്ചിടത്തോളം ഇത് വളരെ തുച്ഛമാണ്, കാരണം വാക്കുകൾ സാധാരണയായി ഇടങ്ങളാൽ വേർതിരിക്കപ്പെടുന്നു. എന്നിരുന്നാലും, ചൈനീസ്[26], ജാപ്പനീസ്[27], തായ് [28]തുടങ്ങിയ ചില ലിഖിത ഭാഷകൾ അത്തരം രീതിയിൽ പദത്തിന്റെ അതിരുകൾ അടയാളപ്പെടുത്തുന്നില്ല, കൂടാതെ ആ ഭാഷകളിൽ വാചക വിഭജനം ഭാഷയിലെ പദങ്ങളുടെ പദാവലിയെക്കുറിച്ചുള്ള അറിവ് ആവശ്യമുള്ള ഒരു പ്രധാന കാര്യമാണ് . ഡാറ്റാ മൈനിംഗിൽ[29] ബാഗ് ഓഫ് വേഡ്സ് (BOW)[30] സൃഷ്ടിക്കൽ പോലുള്ള സന്ദർഭങ്ങളിലും ചിലപ്പോൾ ഈ പ്രക്രിയ ഉപയോഗിക്കുന്നു.

വാക്യഘടന വിശകലനം[തിരുത്തുക]

വാക്യം വിഭജനം [31][തിരുത്തുക]

വാചകത്തിന്റെ ഒരു ഭാഗം നൽകിയാൽ, വാക്യത്തിന്റെ അതിരുകൾ കണ്ടെത്തുക.

പാഴ്‌സിംഗ്[32][തിരുത്തുക]

തന്നിരിക്കുന്ന വാക്യത്തിന്റെ പാഴ്‌സ് ട്രീ[33] (വ്യാകരണ വിശകലനം) നിർണ്ണയിക്കുക. . രണ്ട് പ്രാഥമിക തരം പാഴ്‌സിംഗ് ഉണ്ട്: ഡിപൻഡൻസി പാഴ്‌സിംഗ്, കോൺസ്റ്റിട്യൂൺസി പാഴ്‌സിംഗ്. ഡിപൻഡൻസി പാഴ്‌സിംഗ് ഒരു വാക്യത്തിലെ വാക്കുകൾ തമ്മിലുള്ള ബന്ധത്തെ കേന്ദ്രീകരിക്കുന്നു , എന്നാൽ കോൺസ്റ്റിട്യൂൺസി പാഴ്‌സിംഗ് ഒരു പ്രോബബിലിസ്റ്റിക് കോൺടെക്സ്റ്റ്-ഫ്രീ[34] വ്യാകരണം (പിസിഎഫ്ജി) ഉപയോഗിച്ച് പാഴ്‌സ് ട്രീ നിർമ്മിക്കുന്നതിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു.

ലെക്സിക്കൽ സെമാന്റിക്‌സ് (സന്ദർഭത്തിലെ വ്യക്തിഗത പദങ്ങളുടെ)[തിരുത്തുക]

ലെക്സിക്കൽ സെമാന്റിക്‌സ്[35][തിരുത്തുക]

സന്ദർഭത്തിൽ വ്യക്തിഗത പദങ്ങളുടെ കമ്പ്യൂട്ടേഷണൽ അർഥം എന്താണ് എന്ന കടുപ്പിക്കുക .

ഡിസ്ട്രിബൂഷനാൽ സെമാന്റിക്സ്[36][തിരുത്തുക]

ഡാറ്റയിൽ നിന്ന് നമുക്ക് എങ്ങനെ സെമാന്റിക് പ്രാതിനിധ്യം പഠിക്കാൻ കഴിയും?

നെയിംഡ്എ ന്റിറ്റി റെക്കഗ്നിഷൻ (NER)[37][തിരുത്തുക]

വാചകത്തിന്റെ ഒരു സ്ട്രീം നൽകിയാൽ, ആളുകൾ അല്ലെങ്കിൽ സ്ഥലങ്ങൾ പോലുള്ള ശരിയായ പേരുകളിലേക്ക് ടെക്സ്റ്റ് മാപ്പിലെ ഏതെല്ലാം ഇനങ്ങൾ എന്ന് നിർണ്ണയിക്കുക.

സെന്റിമെന്റ് വിശകലനം [38][തിരുത്തുക]

ടെക്സ്റ്റ് അനാലിസിസ്[39] ടെക്നിക്കുകൾ ഉപയോഗിച്ച് ടെക്സ്റ്റ് ഡാറ്റയ്ക്കുള്ളിലെ വികാരങ്ങളുടെ[40] (പോസിറ്റീവ്, നെഗറ്റീവ്, ന്യൂട്രൽ) വ്യാഖ്യാനവും വർഗ്ഗീകരണവുമാണ് സെന്റിമെന്റ് വിശകലനം.

ടെർമിനോളജി എക്സ്ട്രാക്ഷൻ[41][തിരുത്തുക]

തന്നിരിക്കുന്ന കോർപ്പസിൽ നിന്ന് പ്രസക്തമായ പദങ്ങൾ സ്വപ്രേരിതമായി എക്‌സ്‌ട്രാക്റ്റുചെയ്യുക എന്നതാണ് ടെർമിനോളജി എക്‌സ്‌ട്രാക്റ്റേഷന്റെ ലക്ഷ്യം.

രൂപാന്തര വിശകലനം (മോർഫോളജിക്കൽ അനാലിസിസ് )[തിരുത്തുക]

ലെമ്മറ്റൈസേഷൻ[42][തിരുത്തുക]

ഒരു വാക്കിന്റെ വ്യതിചലന അവസാനങ്ങൾ മാത്രം നീക്കം ചെയ്ത് അതിന്റെ അടിസ്ഥാന നിഘണ്ടു രൂപത്തിൽ ലഭിക്കുന്നതിനെയാണ് ലെമ്മ എന്ന് വിശേഷിപ്പിക്കുന്നത്.

മോർഫോളജിക്കൽ സെഗ്മെന്റേഷൻ[43][തിരുത്തുക]

വാക്കുകളെ വ്യക്തിഗത മോർഫീമുകളായി വേർതിരിച്ച് മോർഫീമുകളുടെ ക്ലാസ് തിരിച്ചറിയുന്ന പ്രക്രിയയെയാണ്  മോർഫോളജിക്കൽ സെഗ്മെന്റേഷൻ എന്ന് പറയുന്നത് .ഈ ടാസ്കിന്റെ ബുദ്ധിമുട്ട് പരിഗണിക്കപ്പെടുന്ന ഭാഷയുടെ രൂപശാസ്ത്രത്തിന്റെ[44] (പദങ്ങളുടെ ഘടന) സങ്കീർണ്ണതയെ ആശ്രയിച്ചിരിക്കുന്നു.

സംഭാഷണത്തിന്റെ ടാഗിംഗ് (പാർട്ട്-ഓഫ്-സ്പീച് ടാഗിംഗ് )[45][തിരുത്തുക]

ഒരു വാചകം നൽകിയാൽ, ഓരോ വാക്കിനും സംഭാഷണത്തിന്റെ ഭാഗം നിർണ്ണയിക്കുക. പല വാക്കുകൾക്കും, പ്രത്യേകിച്ച് പൊതുവായവയ്ക്ക്, സംഭാഷണത്തിന്റെ ഒന്നിലധികം ഭാഗങ്ങളായി പ്രവർത്തിക്കാൻ കഴിയും. ഉദാഹരണത്തിന്, "മണി" എന്ന ഒരു നാമം (മണി എത്രയായി ) അല്ലെങ്കിൽ (സ്കൂളിൽ മണി അടിച്ചു ) എന്ന് ആകാം. ചില ഭാഷകൾ‌ക്ക് മറ്റുള്ളവയേക്കാൾ‌ അവ്യക്തതയുണ്ട്. ചൈനീസ് അത്തരം അവ്യക്തതയ്ക്ക് സാധ്യതയുള്ള ഒരു ഭാഷയാണ്, കാരണം ഇത് വാക്കാൽ പ്രവചിക്കുന്ന സമയത്തുള്ള ഒരു ഭാഷയാണ് .

സ്റ്റെമ്മിംഗ്[46][തിരുത്തുക]

വാക്കുകളെ അവയുടെ മൂലരൂപത്തിലേക്ക് എത്തിക്കുന്ന പ്രക്രിയ. (ഉദാ. "അടച്ചത്", "അടയ്ക്കൽ", "അടയ്ക്കുക", "അടുക്കുക" മുതലായവയുടെ മൂല വാക്ക് "അടയ്ക്കുക").

ഓപ്പൺ സോഴ്‌സ്[47] എൻ‌എൽ‌പി ലൈബ്രറികൾ[തിരുത്തുക]

യഥാർത്ഥ ലോക ആപ്ലിക്കേഷനുകളിൽ എൻ‌എൽ‌പി പ്രയോഗിക്കാൻ ഈ ലൈബ്രറികൾ സഹായിക്കുന്നു.

  • അപ്പാച്ചെ ഓപ്പൺ‌എൻ‌എൽ‌പി:[48] [49]ടോക്കനൈസറുകൾ[50], വാക്യ വിഭജനം[51], സംഭാഷണത്തിന്റെ ഭാഗം ടാഗുചെയ്യൽ(പാർട്ട്-ഓഫ്-സ്പീച് ടാഗിംഗ്)[45], എന്റിറ്റി എക്‌സ്‌ട്രാക്ഷൻ[37], ചങ്കിംഗ്, പാഴ്‌സിംഗ്[52], കോർഫറൻസ് റെസലൂഷൻ എന്നിവയും അതിലേറെയും നൽകുന്ന ഒരു മെഷീൻ ലേണിംഗ് ടൂൾകിറ്റ്.
  • നാച്ചുറൽ ലാംഗ്വേജ് ടൂൾകിറ്റ് (എൻ‌എൽ‌ടി‌കെ)[53][54]: വാചകം പ്രോസസ് ചെയ്യുന്നതിനും തരംതിരിക്കുന്നതിനും ടോക്കണൈസ് ചെയ്യുന്നതിനും സ്റ്റെമിംഗ്[55], പാഴ്‌സിംഗ് [52]എന്നിവയ്‌ക്കും അതിലേറെ കാര്യങ്ങൾക്കുമായി മൊഡ്യൂളുകൾ നൽകുന്ന ഒരു പൈത്തൺ[56] ലൈബ്രറി,
  • സ്റ്റാൻ‌ഫോർഡ് എൻ‌എൽ‌പി:[57] പാർട്ട്-ഓഫ്-സ്പീച് ടാഗിംഗ്[45], പേരുള്ള എന്റിറ്റി റെക്കഗ്‌നൈസർ,[37] കോർ‌ഫറൻസ് റെസല്യൂഷൻ സിസ്റ്റം[58], സെന്റിമെന്റ് അനാലിസിസ് [59]എന്നിവയും അതിലേറെയും നൽകുന്ന എൻ‌എൽ‌പി ഉപകരണങ്ങളുടെ ഒരു സ്യൂട്ട്.
  • മല്ലെറ് (MALLET[60][61] ): ലേറ്റന്റ് ഡിറിക്ലെറ്റ് അലോക്കേഷൻ[62], ഡോക്യുമെന്റ് ക്ലാസിഫിക്കേഷൻ[63], ക്ലസ്റ്ററിംഗ്, ടോപ്പിക് മോഡലിംഗ്[64], ഇൻഫർമേഷൻ എക്സ്ട്രാക്ഷൻ[65] എന്നിവയും അതിലേറെയും നൽകുന്ന ഒരു ജാവ [66]പാക്കേജ്.

അവലംബം  [തിരുത്തുക]

  1. "Linguistics", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-15, retrieved 2020-08-22
  2. "Computer science", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
  3. "Artificial intelligence", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-22, retrieved 2020-08-22
  4. 4.0 4.1 "Data", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-19, retrieved 2020-08-22
  5. "Computer performance by orders of magnitude", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-06, retrieved 2020-08-22
  6. "Health care", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-15, retrieved 2020-08-22
  7. "Media (communication)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-20, retrieved 2020-08-22
  8. https://en.wikipedia.org/wiki/Finance
  9. "Human resources", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-21, retrieved 2020-08-22
  10. "Autocorrection", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-17, retrieved 2020-08-22
  11. "Detecting fake news online", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-17, retrieved 2020-08-22
  12. "Email filtering", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-07, retrieved 2020-08-22
  13. "Web search engine", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-09, retrieved 2020-08-22
  14. "Keyword", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
  15. "Siri", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-21, retrieved 2020-08-22
  16. "Amazon Alexa", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
  17. "Google Assistant", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-17, retrieved 2020-08-22
  18. "Optical character recognition", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
  19. 19.0 19.1 "Speech recognition", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
  20. 20.0 20.1 "Speech segmentation", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-15, retrieved 2020-08-22
  21. "Coarticulation", Wikipedia (in ഇംഗ്ലീഷ്), 2016-12-11, retrieved 2020-08-22
  22. "Analog signal", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-24, retrieved 2020-08-22
  23. "Speech synthesis", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-04, retrieved 2020-08-22
  24. "Lexical analysis", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-14, retrieved 2020-08-22
  25. "English language", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-21, retrieved 2020-08-22
  26. "Chinese language", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-20, retrieved 2020-08-22
  27. "Japanese language", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-19, retrieved 2020-08-22
  28. "Thai language", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-16, retrieved 2020-08-22
  29. "Data mining", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-15, retrieved 2020-08-22
  30. "Bag-of-words model", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-11, retrieved 2020-08-22
  31. "Sentence boundary disambiguation", Wikipedia (in ഇംഗ്ലീഷ്), 2019-12-18, retrieved 2020-08-22
  32. "Parsing", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
  33. "Parse tree", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-11, retrieved 2020-08-22
  34. "Probabilistic context-free grammar", Wikipedia (in ഇംഗ്ലീഷ്), 2020-04-15, retrieved 2020-08-22
  35. "Lexical semantics", Wikipedia (in ഇംഗ്ലീഷ്), 2020-06-09, retrieved 2020-08-22
  36. "Distributional semantics", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-21, retrieved 2020-08-22
  37. 37.0 37.1 37.2 "Named-entity recognition", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-19, retrieved 2020-08-22
  38. "Sentiment analysis", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
  39. "Text mining", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
  40. "Emotion", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-20, retrieved 2020-08-22
  41. "Terminology extraction", Wikipedia (in ഇംഗ്ലീഷ്), 2020-04-02, retrieved 2020-08-22
  42. "Lemmatisation", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-16, retrieved 2020-08-22
  43. "Morphology (linguistics)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
  44. "Morphology (linguistics)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
  45. 45.0 45.1 45.2 "Part-of-speech tagging", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-17, retrieved 2020-08-22
  46. "Stemming", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-29, retrieved 2020-08-22
  47. "Open source", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-17, retrieved 2020-08-22
  48. "Apache OpenNLP", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-10, retrieved 2020-08-22
  49. "Documentation - Apache OpenNLP". Retrieved 2020-08-22.
  50. "Tokenization". Retrieved 2020-08-22.
  51. "Text segmentation", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-29, retrieved 2020-08-22
  52. 52.0 52.1 "Parsing", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
  53. "Natural Language Toolkit — NLTK 3.5 documentation". Retrieved 2020-08-22.
  54. "Natural Language Toolkit", Wikipedia (in ഇംഗ്ലീഷ്), 2020-04-15, retrieved 2020-08-22
  55. "Stemming", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-29, retrieved 2020-08-22
  56. "Welcome to Python.org" (in ഇംഗ്ലീഷ്). Retrieved 2020-08-22.
  57. "The Stanford Natural Language Processing Group". Retrieved 2020-08-22.
  58. "The Stanford Natural Language Processing Group". Retrieved 2020-08-22.
  59. "Sentiment analysis", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
  60. "Mallet (software project)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-01, retrieved 2020-08-22
  61. "MALLET homepage". Retrieved 2020-08-22.
  62. "Latent Dirichlet allocation", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-28, retrieved 2020-08-22
  63. "Document classification", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
  64. "Topic model", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-31, retrieved 2020-08-22
  65. "Information extraction", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-20, retrieved 2020-08-22
  66. "Java (programming language)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-22, retrieved 2020-08-22