നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ്
നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ് (എൻഎൽപി) ഭാഷാശാസ്ത്രം[1], കമ്പ്യൂട്ടർ സയൻസ്[2], ഇൻഫർമേഷൻ എഞ്ചിനീയറിംഗ്, ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ്[3] എന്നിവയുടെ ഒരു ഉപഫീൽഡാണ്. കമ്പ്യൂട്ടറുകളും മനുഷ്യന്റെ ഭാഷകളും തമ്മിലുള്ള ഇടപെടലുകളുമായി ബന്ധപ്പെട്ട, പ്രത്യേകിച്ചും വലിയ അളവിൽ സ്വാഭാവിക ഭാഷാ ഡാറ്റ [4]പ്രോസസ്സ് ചെയ്യുന്നതിനും വിശകലനം ചെയ്യുന്നതിനും കമ്പ്യൂട്ടറുകളെ എങ്ങനെ പ്രോഗ്രാം ചെയ്യാം എന്നതിനെ കുറിച്ച ഉള്ള പഠനം ആണ് നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ് (എൻഎൽപി). എൻഎൽപി മനുഷ്യ ഭാഷകളിൽ നിന്ന് വായിക്കാനും മനസിലാക്കാനും അർത്ഥം നേടാനുമുള്ള കഴിവ് മെഷീനുകൾക്ക് നൽകുന്നു. ഡാറ്റ[4] ലഭിക്കുന്നതിന്റെ മെച്ചപ്പെടുത്തലുകളും കമ്പ്യൂട്ടേഷണൽ പവറിന്റെ [5]വർദ്ധനവും കാരണം ഇന്ന് എൻഎൽപി കുതിച്ചുയരുന്നു. ആരോഗ്യ സംരക്ഷണം[6], മാധ്യമങ്ങൾ[7], ധനകാര്യം[8], മാനവ വിഭവശേഷി[9] തുടങ്ങിയ മേഖലകളിൽ അർത്ഥവത്തായ ഫലങ്ങൾ നേടാൻ പരിശീലകരെ ഇത് സഹായിക്കുന്നു.
ഉദാഹരണങ്ങൾ[തിരുത്തുക]
ആളുകൾ ദിവസവും ഉപയോഗിക്കുന്ന എൻ എൽ പിയുടെ ചില ഉദാഹരണങ്ങൾ ഇവയാണ്:
- അക്ഷരപ്പിശക് പരിശോധന[10]
- രോഗനിർണയം
- വ്യാജ വാർത്തകൾ തിരിച്ചറിയുക[11]
- സ്പാം ഫിൽട്ടറുകൾ[12]
- സെർച്ച് എഞ്ചിനുകളിലെ[13] അനുബന്ധ കീവേഡുകൾ[14]
- സിരി,[15] അലക്സാ[16] അല്ലെങ്കിൽ ഗൂഗിൾ അസിസ്റ്റന്റ്[17]
സാധാരണ എൻഎൽപി കാര്യങ്ങൾ[തിരുത്തുക]
നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗിൽ സാധാരണയായി ഗവേഷണം ചെയ്യപ്പെടുന്ന ചില ജോലികളുടെ പട്ടികയാണ് ഇനിപ്പറയുന്നത്. ഈ ടാസ്ക്കുകളിൽ ചിലതിന് നേരിട്ടുള്ള യഥാർത്ഥ ലോക ആപ്ലിക്കേഷനുകൾ ഉണ്ട്, മറ്റുള്ളവ സാധാരണയായി വലിയ ടാസ്ക്കുകൾ പരിഹരിക്കുന്നതിന് സഹായിക്കുന്ന സബ്ടാസ്കുകളായി വർത്തിക്കുന്നു.നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗിൽ ജോലികൾ പരസ്പരം ബന്ധപ്പെട്ടിരിക്കുന്നുവെങ്കിലും, സൗകര്യാർത്ഥം അവ വിഭാഗങ്ങളായി തിരിക്കാം.
ടെക്സ്റ്റ്, സ്പീച്ച് പ്രോസസ്സിംഗ്[തിരുത്തുക]
ഒപ്റ്റിക്കൽ ക്യാരക്ടർ റെക്കഗ്നിഷൻ (OCR)[18][തിരുത്തുക]
അച്ചടിച്ച വാചകത്തെ പ്രതിനിധീകരിക്കുന്ന ഒരു ചിത്രം നൽകിയാൽ, അനുബന്ധ വാചകം നിർണ്ണയിക്കുക.
സംഭാഷണ തിരിച്ചറിയൽ ( സ്പീച് റെക്കഗ്നിഷൻ ) [19][തിരുത്തുക]
ഒരു വ്യക്തിയുടെയോ സംസാരിക്കുന്ന ആളുകളുടെയോ ശബ്ദ ക്ലിപ്പ് നൽകി, സംഭാഷണത്തിന്റെ വാചക പ്രാതിനിധ്യം നിർണ്ണയിക്കുക.സ്വാഭാവിക സംഭാഷണത്തിൽ തുടർച്ചയായ പദങ്ങൾക്കിടയിൽ താൽക്കാലികമായി നിർത്താനാകില്ല, അതിനാൽ സംഭാഷണ വിഭജനം (സ്പീച് സെഗ്മെന്റഷന്)[20] സംഭാഷണ തിരിച്ചറിയലിന്റെ ഒരു ഉപവിഭാഗമാണ്. മിക്ക സംസാര ഭാഷകളിലും, കോ ആർട്ടിക്കലഷൻ[21] എന്ന് വിളിക്കപ്പെടുന്ന ഒരു പ്രക്രിയയിൽ തുടർച്ചയായ അക്ഷരങ്ങളെ പ്രതിനിധീകരിക്കുന്ന ശബ്ദങ്ങൾ പരസ്പരം കൂടിച്ചേരുന്നു, അതിനാൽ അനലോഗ് സിഗ്നലിനെ[22] വ്യതിരിക്ത പ്രതീകങ്ങളിലേക്ക് പരിവർത്തനം ചെയ്യുന്നത് വളരെ ബുദ്ധിമുട്ടുള്ള പ്രക്രിയയാണ് .
സംഭാഷണ വിഭജനം (സ്പീച് സെഗ്മെന്റഷന്)[20][തിരുത്തുക]
ഒരു വ്യക്തിയുടെയോ സംസാരിക്കുന്ന ആളുകളുടെയോ ശബ്ദ ക്ലിപ്പ് നൽകി, അത് വാക്കുകളായി വേർതിരിക്കുക. സ്പീച്ച് റെക്കഗ്നിഷന്റെ[19] ഒരു സബ് ടാസ്ക്, സാധാരണ അവയുമായി ഇതിനെ ഗ്രൂപ്പുചെയ്യുന്നു.
ടെക്സ്റ്റ്-ടു-സ്പീച്ച്[23][തിരുത്തുക]
ഒരു വാചകം നൽകി, ആ യൂണിറ്റുകൾ രൂപാന്തരപ്പെടുത്തി ഒരു സംഭാഷണ പ്രാതിനിധ്യം സൃഷ്ടിക്കുക. കാഴ്ചയില്ലാത്തവരെ സഹായിക്കാൻ ടെക്സ്റ്റ്-ടു-സ്പീച്ച് ഉപയോഗിക്കാം.
പദ വിഭജനം (ടോക്കണൈസേഷൻ)[24][തിരുത്തുക]
തുടർച്ചയായ വാചകത്തിന്റെ ഒരു ഭാഗം പ്രത്യേക പദങ്ങളായി വേർതിരിക്കുക. ഇംഗ്ലീഷ് [25]പോലുള്ള ഒരു ഭാഷയെ സംബന്ധിച്ചിടത്തോളം ഇത് വളരെ തുച്ഛമാണ്, കാരണം വാക്കുകൾ സാധാരണയായി ഇടങ്ങളാൽ വേർതിരിക്കപ്പെടുന്നു. എന്നിരുന്നാലും, ചൈനീസ്[26], ജാപ്പനീസ്[27], തായ് [28]തുടങ്ങിയ ചില ലിഖിത ഭാഷകൾ അത്തരം രീതിയിൽ പദത്തിന്റെ അതിരുകൾ അടയാളപ്പെടുത്തുന്നില്ല, കൂടാതെ ആ ഭാഷകളിൽ വാചക വിഭജനം ഭാഷയിലെ പദങ്ങളുടെ പദാവലിയെക്കുറിച്ചുള്ള അറിവ് ആവശ്യമുള്ള ഒരു പ്രധാന കാര്യമാണ് . ഡാറ്റാ മൈനിംഗിൽ[29] ബാഗ് ഓഫ് വേഡ്സ് (BOW)[30] സൃഷ്ടിക്കൽ പോലുള്ള സന്ദർഭങ്ങളിലും ചിലപ്പോൾ ഈ പ്രക്രിയ ഉപയോഗിക്കുന്നു.
വാക്യഘടന വിശകലനം[തിരുത്തുക]
വാക്യം വിഭജനം [31][തിരുത്തുക]
വാചകത്തിന്റെ ഒരു ഭാഗം നൽകിയാൽ, വാക്യത്തിന്റെ അതിരുകൾ കണ്ടെത്തുക.
പാഴ്സിംഗ്[32][തിരുത്തുക]
തന്നിരിക്കുന്ന വാക്യത്തിന്റെ പാഴ്സ് ട്രീ[33] (വ്യാകരണ വിശകലനം) നിർണ്ണയിക്കുക. . രണ്ട് പ്രാഥമിക തരം പാഴ്സിംഗ് ഉണ്ട്: ഡിപൻഡൻസി പാഴ്സിംഗ്, കോൺസ്റ്റിട്യൂൺസി പാഴ്സിംഗ്. ഡിപൻഡൻസി പാഴ്സിംഗ് ഒരു വാക്യത്തിലെ വാക്കുകൾ തമ്മിലുള്ള ബന്ധത്തെ കേന്ദ്രീകരിക്കുന്നു , എന്നാൽ കോൺസ്റ്റിട്യൂൺസി പാഴ്സിംഗ് ഒരു പ്രോബബിലിസ്റ്റിക് കോൺടെക്സ്റ്റ്-ഫ്രീ[34] വ്യാകരണം (പിസിഎഫ്ജി) ഉപയോഗിച്ച് പാഴ്സ് ട്രീ നിർമ്മിക്കുന്നതിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു.
ലെക്സിക്കൽ സെമാന്റിക്സ് (സന്ദർഭത്തിലെ വ്യക്തിഗത പദങ്ങളുടെ)[തിരുത്തുക]
ലെക്സിക്കൽ സെമാന്റിക്സ്[35][തിരുത്തുക]
സന്ദർഭത്തിൽ വ്യക്തിഗത പദങ്ങളുടെ കമ്പ്യൂട്ടേഷണൽ അർഥം എന്താണ് എന്ന കടുപ്പിക്കുക .
ഡിസ്ട്രിബൂഷനാൽ സെമാന്റിക്സ്[36][തിരുത്തുക]
ഡാറ്റയിൽ നിന്ന് നമുക്ക് എങ്ങനെ സെമാന്റിക് പ്രാതിനിധ്യം പഠിക്കാൻ കഴിയും?
നെയിംഡ്എ ന്റിറ്റി റെക്കഗ്നിഷൻ (NER)[37][തിരുത്തുക]
വാചകത്തിന്റെ ഒരു സ്ട്രീം നൽകിയാൽ, ആളുകൾ അല്ലെങ്കിൽ സ്ഥലങ്ങൾ പോലുള്ള ശരിയായ പേരുകളിലേക്ക് ടെക്സ്റ്റ് മാപ്പിലെ ഏതെല്ലാം ഇനങ്ങൾ എന്ന് നിർണ്ണയിക്കുക.
സെന്റിമെന്റ് വിശകലനം [38][തിരുത്തുക]
ടെക്സ്റ്റ് അനാലിസിസ്[39] ടെക്നിക്കുകൾ ഉപയോഗിച്ച് ടെക്സ്റ്റ് ഡാറ്റയ്ക്കുള്ളിലെ വികാരങ്ങളുടെ[40] (പോസിറ്റീവ്, നെഗറ്റീവ്, ന്യൂട്രൽ) വ്യാഖ്യാനവും വർഗ്ഗീകരണവുമാണ് സെന്റിമെന്റ് വിശകലനം.
ടെർമിനോളജി എക്സ്ട്രാക്ഷൻ[41][തിരുത്തുക]
തന്നിരിക്കുന്ന കോർപ്പസിൽ നിന്ന് പ്രസക്തമായ പദങ്ങൾ സ്വപ്രേരിതമായി എക്സ്ട്രാക്റ്റുചെയ്യുക എന്നതാണ് ടെർമിനോളജി എക്സ്ട്രാക്റ്റേഷന്റെ ലക്ഷ്യം.
രൂപാന്തര വിശകലനം (മോർഫോളജിക്കൽ അനാലിസിസ് )[തിരുത്തുക]
ലെമ്മറ്റൈസേഷൻ[42][തിരുത്തുക]
ഒരു വാക്കിന്റെ വ്യതിചലന അവസാനങ്ങൾ മാത്രം നീക്കം ചെയ്ത് അതിന്റെ അടിസ്ഥാന നിഘണ്ടു രൂപത്തിൽ ലഭിക്കുന്നതിനെയാണ് ലെമ്മ എന്ന് വിശേഷിപ്പിക്കുന്നത്.
മോർഫോളജിക്കൽ സെഗ്മെന്റേഷൻ[43][തിരുത്തുക]
വാക്കുകളെ വ്യക്തിഗത മോർഫീമുകളായി വേർതിരിച്ച് മോർഫീമുകളുടെ ക്ലാസ് തിരിച്ചറിയുന്ന പ്രക്രിയയെയാണ് മോർഫോളജിക്കൽ സെഗ്മെന്റേഷൻ എന്ന് പറയുന്നത് .ഈ ടാസ്കിന്റെ ബുദ്ധിമുട്ട് പരിഗണിക്കപ്പെടുന്ന ഭാഷയുടെ രൂപശാസ്ത്രത്തിന്റെ[44] (പദങ്ങളുടെ ഘടന) സങ്കീർണ്ണതയെ ആശ്രയിച്ചിരിക്കുന്നു.
സംഭാഷണത്തിന്റെ ടാഗിംഗ് (പാർട്ട്-ഓഫ്-സ്പീച് ടാഗിംഗ് )[45][തിരുത്തുക]
ഒരു വാചകം നൽകിയാൽ, ഓരോ വാക്കിനും സംഭാഷണത്തിന്റെ ഭാഗം നിർണ്ണയിക്കുക. പല വാക്കുകൾക്കും, പ്രത്യേകിച്ച് പൊതുവായവയ്ക്ക്, സംഭാഷണത്തിന്റെ ഒന്നിലധികം ഭാഗങ്ങളായി പ്രവർത്തിക്കാൻ കഴിയും. ഉദാഹരണത്തിന്, "മണി" എന്ന ഒരു നാമം (മണി എത്രയായി ) അല്ലെങ്കിൽ (സ്കൂളിൽ മണി അടിച്ചു ) എന്ന് ആകാം. ചില ഭാഷകൾക്ക് മറ്റുള്ളവയേക്കാൾ അവ്യക്തതയുണ്ട്. ചൈനീസ് അത്തരം അവ്യക്തതയ്ക്ക് സാധ്യതയുള്ള ഒരു ഭാഷയാണ്, കാരണം ഇത് വാക്കാൽ പ്രവചിക്കുന്ന സമയത്തുള്ള ഒരു ഭാഷയാണ് .
സ്റ്റെമ്മിംഗ്[46][തിരുത്തുക]
വാക്കുകളെ അവയുടെ മൂലരൂപത്തിലേക്ക് എത്തിക്കുന്ന പ്രക്രിയ. (ഉദാ. "അടച്ചത്", "അടയ്ക്കൽ", "അടയ്ക്കുക", "അടുക്കുക" മുതലായവയുടെ മൂല വാക്ക് "അടയ്ക്കുക").
ഓപ്പൺ സോഴ്സ്[47] എൻഎൽപി ലൈബ്രറികൾ[തിരുത്തുക]
യഥാർത്ഥ ലോക ആപ്ലിക്കേഷനുകളിൽ എൻഎൽപി പ്രയോഗിക്കാൻ ഈ ലൈബ്രറികൾ സഹായിക്കുന്നു.
- അപ്പാച്ചെ ഓപ്പൺഎൻഎൽപി:[48] [49]ടോക്കനൈസറുകൾ[50], വാക്യ വിഭജനം[51], സംഭാഷണത്തിന്റെ ഭാഗം ടാഗുചെയ്യൽ(പാർട്ട്-ഓഫ്-സ്പീച് ടാഗിംഗ്)[45], എന്റിറ്റി എക്സ്ട്രാക്ഷൻ[37], ചങ്കിംഗ്, പാഴ്സിംഗ്[52], കോർഫറൻസ് റെസലൂഷൻ എന്നിവയും അതിലേറെയും നൽകുന്ന ഒരു മെഷീൻ ലേണിംഗ് ടൂൾകിറ്റ്.
- നാച്ചുറൽ ലാംഗ്വേജ് ടൂൾകിറ്റ് (എൻഎൽടികെ)[53][54]: വാചകം പ്രോസസ് ചെയ്യുന്നതിനും തരംതിരിക്കുന്നതിനും ടോക്കണൈസ് ചെയ്യുന്നതിനും സ്റ്റെമിംഗ്[55], പാഴ്സിംഗ് [52]എന്നിവയ്ക്കും അതിലേറെ കാര്യങ്ങൾക്കുമായി മൊഡ്യൂളുകൾ നൽകുന്ന ഒരു പൈത്തൺ[56] ലൈബ്രറി,
- സ്റ്റാൻഫോർഡ് എൻഎൽപി:[57] പാർട്ട്-ഓഫ്-സ്പീച് ടാഗിംഗ്[45], പേരുള്ള എന്റിറ്റി റെക്കഗ്നൈസർ,[37] കോർഫറൻസ് റെസല്യൂഷൻ സിസ്റ്റം[58], സെന്റിമെന്റ് അനാലിസിസ് [59]എന്നിവയും അതിലേറെയും നൽകുന്ന എൻഎൽപി ഉപകരണങ്ങളുടെ ഒരു സ്യൂട്ട്.
- മല്ലെറ് (MALLET[60][61] ): ലേറ്റന്റ് ഡിറിക്ലെറ്റ് അലോക്കേഷൻ[62], ഡോക്യുമെന്റ് ക്ലാസിഫിക്കേഷൻ[63], ക്ലസ്റ്ററിംഗ്, ടോപ്പിക് മോഡലിംഗ്[64], ഇൻഫർമേഷൻ എക്സ്ട്രാക്ഷൻ[65] എന്നിവയും അതിലേറെയും നൽകുന്ന ഒരു ജാവ [66]പാക്കേജ്.
അവലംബം [തിരുത്തുക]
- ↑ "Linguistics", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-15, retrieved 2020-08-22
- ↑ "Computer science", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
- ↑ "Artificial intelligence", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-22, retrieved 2020-08-22
- ↑ 4.0 4.1 "Data", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-19, retrieved 2020-08-22
- ↑ "Computer performance by orders of magnitude", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-06, retrieved 2020-08-22
- ↑ "Health care", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-15, retrieved 2020-08-22
- ↑ "Media (communication)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-20, retrieved 2020-08-22
- ↑ https://en.wikipedia.org/wiki/Finance
- ↑ "Human resources", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-21, retrieved 2020-08-22
- ↑ "Autocorrection", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-17, retrieved 2020-08-22
- ↑ "Detecting fake news online", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-17, retrieved 2020-08-22
- ↑ "Email filtering", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-07, retrieved 2020-08-22
- ↑ "Web search engine", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-09, retrieved 2020-08-22
- ↑ "Keyword", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
- ↑ "Siri", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-21, retrieved 2020-08-22
- ↑ "Amazon Alexa", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
- ↑ "Google Assistant", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-17, retrieved 2020-08-22
- ↑ "Optical character recognition", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
- ↑ 19.0 19.1 "Speech recognition", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
- ↑ 20.0 20.1 "Speech segmentation", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-15, retrieved 2020-08-22
- ↑ "Coarticulation", Wikipedia (in ഇംഗ്ലീഷ്), 2016-12-11, retrieved 2020-08-22
- ↑ "Analog signal", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-24, retrieved 2020-08-22
- ↑ "Speech synthesis", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-04, retrieved 2020-08-22
- ↑ "Lexical analysis", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-14, retrieved 2020-08-22
- ↑ "English language", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-21, retrieved 2020-08-22
- ↑ "Chinese language", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-20, retrieved 2020-08-22
- ↑ "Japanese language", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-19, retrieved 2020-08-22
- ↑ "Thai language", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-16, retrieved 2020-08-22
- ↑ "Data mining", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-15, retrieved 2020-08-22
- ↑ "Bag-of-words model", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-11, retrieved 2020-08-22
- ↑ "Sentence boundary disambiguation", Wikipedia (in ഇംഗ്ലീഷ്), 2019-12-18, retrieved 2020-08-22
- ↑ "Parsing", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
- ↑ "Parse tree", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-11, retrieved 2020-08-22
- ↑ "Probabilistic context-free grammar", Wikipedia (in ഇംഗ്ലീഷ്), 2020-04-15, retrieved 2020-08-22
- ↑ "Lexical semantics", Wikipedia (in ഇംഗ്ലീഷ്), 2020-06-09, retrieved 2020-08-22
- ↑ "Distributional semantics", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-21, retrieved 2020-08-22
- ↑ 37.0 37.1 37.2 "Named-entity recognition", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-19, retrieved 2020-08-22
- ↑ "Sentiment analysis", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
- ↑ "Text mining", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
- ↑ "Emotion", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-20, retrieved 2020-08-22
- ↑ "Terminology extraction", Wikipedia (in ഇംഗ്ലീഷ്), 2020-04-02, retrieved 2020-08-22
- ↑ "Lemmatisation", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-16, retrieved 2020-08-22
- ↑ "Morphology (linguistics)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
- ↑ "Morphology (linguistics)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
- ↑ 45.0 45.1 45.2 "Part-of-speech tagging", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-17, retrieved 2020-08-22
- ↑ "Stemming", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-29, retrieved 2020-08-22
- ↑ "Open source", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-17, retrieved 2020-08-22
- ↑ "Apache OpenNLP", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-10, retrieved 2020-08-22
- ↑ "Documentation - Apache OpenNLP". Retrieved 2020-08-22.
- ↑ "Tokenization". Retrieved 2020-08-22.
- ↑ "Text segmentation", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-29, retrieved 2020-08-22
- ↑ 52.0 52.1 "Parsing", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
- ↑ "Natural Language Toolkit — NLTK 3.5 documentation". Retrieved 2020-08-22.
- ↑ "Natural Language Toolkit", Wikipedia (in ഇംഗ്ലീഷ്), 2020-04-15, retrieved 2020-08-22
- ↑ "Stemming", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-29, retrieved 2020-08-22
- ↑ "Welcome to Python.org" (in ഇംഗ്ലീഷ്). Retrieved 2020-08-22.
- ↑ "The Stanford Natural Language Processing Group". Retrieved 2020-08-22.
- ↑ "The Stanford Natural Language Processing Group". Retrieved 2020-08-22.
- ↑ "Sentiment analysis", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
- ↑ "Mallet (software project)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-01, retrieved 2020-08-22
- ↑ "MALLET homepage". Retrieved 2020-08-22.
- ↑ "Latent Dirichlet allocation", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-28, retrieved 2020-08-22
- ↑ "Document classification", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
- ↑ "Topic model", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-31, retrieved 2020-08-22
- ↑ "Information extraction", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-20, retrieved 2020-08-22
- ↑ "Java (programming language)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-22, retrieved 2020-08-22