നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ്

നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ് (എൻ‌എൽ‌പി) ഭാഷാശാസ്ത്രം^[1], കമ്പ്യൂട്ടർ സയൻസ്^[2], ഇൻഫർമേഷൻ എഞ്ചിനീയറിംഗ്, ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ്^[3] എന്നിവയുടെ ഒരു ഉപഫീൽഡാണ്. കമ്പ്യൂട്ടറുകളും മനുഷ്യന്റെ ഭാഷകളും തമ്മിലുള്ള ഇടപെടലുകളുമായി ബന്ധപ്പെട്ട, പ്രത്യേകിച്ചും വലിയ അളവിൽ സ്വാഭാവിക ഭാഷാ ഡാറ്റ ^[4]പ്രോസസ്സ് ചെയ്യുന്നതിനും വിശകലനം ചെയ്യുന്നതിനും കമ്പ്യൂട്ടറുകളെ എങ്ങനെ പ്രോഗ്രാം ചെയ്യാം എന്നതിനെ കുറിച്ച ഉള്ള പഠനം ആണ് നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ് (എൻ‌എൽ‌പി). എൻ‌എൽ‌പി മനുഷ്യ ഭാഷകളിൽ നിന്ന് വായിക്കാനും മനസിലാക്കാനും അർത്ഥം നേടാനുമുള്ള കഴിവ് മെഷീനുകൾക്ക് നൽകുന്നു. ഡാറ്റ^[4] ലഭിക്കുന്നതിന്റെ മെച്ചപ്പെടുത്തലുകളും കമ്പ്യൂട്ടേഷണൽ പവറിന്റെ ^[5]വർദ്ധനവും കാരണം ഇന്ന് എൻ‌എൽ‌പി കുതിച്ചുയരുന്നു. ആരോഗ്യ സംരക്ഷണം^[6], മാധ്യമങ്ങൾ^[7], ധനകാര്യം^[8], മാനവ വിഭവശേഷി^[9] തുടങ്ങിയ മേഖലകളിൽ അർത്ഥവത്തായ ഫലങ്ങൾ നേടാൻ പരിശീലകരെ ഇത് സഹായിക്കുന്നു.

ഉദാഹരണങ്ങൾ[തിരുത്തുക]

ആളുകൾ ദിവസവും ഉപയോഗിക്കുന്ന എൻ‌ എൽ‌ പിയുടെ ചില ഉദാഹരണങ്ങൾ ഇവയാണ്:

അക്ഷരപ്പിശക് പരിശോധന^[10]
രോഗനിർണയം
വ്യാജ വാർത്തകൾ തിരിച്ചറിയുക^[11]
സ്പാം ഫിൽട്ടറുകൾ^[12]
സെർച്ച് എഞ്ചിനുകളിലെ^[13] അനുബന്ധ കീവേഡുകൾ^[14]
സിരി,^[15] അലക്സാ^[16] അല്ലെങ്കിൽ ഗൂഗിൾ അസിസ്റ്റന്റ്^[17]

സാധാരണ എൻ‌എൽ‌പി കാര്യങ്ങൾ[തിരുത്തുക]

നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗിൽ സാധാരണയായി ഗവേഷണം ചെയ്യപ്പെടുന്ന ചില ജോലികളുടെ പട്ടികയാണ് ഇനിപ്പറയുന്നത്. ഈ ടാസ്‌ക്കുകളിൽ ചിലതിന് നേരിട്ടുള്ള യഥാർത്ഥ ലോക ആപ്ലിക്കേഷനുകൾ ഉണ്ട്, മറ്റുള്ളവ സാധാരണയായി വലിയ ടാസ്‌ക്കുകൾ പരിഹരിക്കുന്നതിന് സഹായിക്കുന്ന സബ്‌ടാസ്കുകളായി വർത്തിക്കുന്നു.നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗിൽ ജോലികൾ പരസ്പരം ബന്ധപ്പെട്ടിരിക്കുന്നുവെങ്കിലും, സൗകര്യാർത്ഥം അവ വിഭാഗങ്ങളായി തിരിക്കാം.

ടെക്സ്റ്റ്, സ്പീച്ച് പ്രോസസ്സിംഗ്[തിരുത്തുക]

ഒപ്റ്റിക്കൽ ക്യാരക്ടർ റെക്കഗ്നിഷൻ (OCR)^[18][തിരുത്തുക]

അച്ചടിച്ച വാചകത്തെ പ്രതിനിധീകരിക്കുന്ന ഒരു ചിത്രം നൽകിയാൽ, അനുബന്ധ വാചകം നിർണ്ണയിക്കുക.

സംഭാഷണ തിരിച്ചറിയൽ ( സ്പീച് റെക്കഗ്നിഷൻ ) ^[19][തിരുത്തുക]

ഒരു വ്യക്തിയുടെയോ സംസാരിക്കുന്ന ആളുകളുടെയോ ശബ്‌ദ ക്ലിപ്പ് നൽകി, സംഭാഷണത്തിന്റെ വാചക പ്രാതിനിധ്യം നിർണ്ണയിക്കുക.സ്വാഭാവിക സംഭാഷണത്തിൽ തുടർച്ചയായ പദങ്ങൾക്കിടയിൽ താൽക്കാലികമായി നിർത്താനാകില്ല, അതിനാൽ സംഭാഷണ വിഭജനം (സ്പീച് സെഗ്മെന്റഷന്)^[20] സംഭാഷണ തിരിച്ചറിയലിന്റെ ഒരു ഉപവിഭാഗമാണ്. മിക്ക സംസാര ഭാഷകളിലും, കോ ആർട്ടിക്കലഷൻ^[21] എന്ന് വിളിക്കപ്പെടുന്ന ഒരു പ്രക്രിയയിൽ തുടർച്ചയായ അക്ഷരങ്ങളെ പ്രതിനിധീകരിക്കുന്ന ശബ്ദങ്ങൾ പരസ്പരം കൂടിച്ചേരുന്നു, അതിനാൽ അനലോഗ് സിഗ്നലിനെ^[22] വ്യതിരിക്ത പ്രതീകങ്ങളിലേക്ക് പരിവർത്തനം ചെയ്യുന്നത് വളരെ ബുദ്ധിമുട്ടുള്ള പ്രക്രിയയാണ് .

സംഭാഷണ വിഭജനം (സ്പീച് സെഗ്മെന്റഷന്)^[20][തിരുത്തുക]

ഒരു വ്യക്തിയുടെയോ സംസാരിക്കുന്ന ആളുകളുടെയോ ശബ്‌ദ ക്ലിപ്പ് നൽകി, അത് വാക്കുകളായി വേർതിരിക്കുക. സ്പീച്ച് റെക്കഗ്നിഷന്റെ^[19] ഒരു സബ് ടാസ്‌ക്, സാധാരണ അവയുമായി ഇതിനെ ഗ്രൂപ്പുചെയ്യുന്നു.

ടെക്സ്റ്റ്-ടു-സ്പീച്ച്^[23][തിരുത്തുക]

ഒരു വാചകം നൽകി, ആ യൂണിറ്റുകൾ രൂപാന്തരപ്പെടുത്തി ഒരു സംഭാഷണ പ്രാതിനിധ്യം സൃഷ്ടിക്കുക. കാഴ്ചയില്ലാത്തവരെ സഹായിക്കാൻ ടെക്സ്റ്റ്-ടു-സ്പീച്ച് ഉപയോഗിക്കാം.

പദ വിഭജനം (ടോക്കണൈസേഷൻ)^[24][തിരുത്തുക]

തുടർച്ചയായ വാചകത്തിന്റെ ഒരു ഭാഗം പ്രത്യേക പദങ്ങളായി വേർതിരിക്കുക. ഇംഗ്ലീഷ് ^[25]പോലുള്ള ഒരു ഭാഷയെ സംബന്ധിച്ചിടത്തോളം ഇത് വളരെ തുച്ഛമാണ്, കാരണം വാക്കുകൾ സാധാരണയായി ഇടങ്ങളാൽ വേർതിരിക്കപ്പെടുന്നു. എന്നിരുന്നാലും, ചൈനീസ്^[26], ജാപ്പനീസ്^[27], തായ് ^[28]തുടങ്ങിയ ചില ലിഖിത ഭാഷകൾ അത്തരം രീതിയിൽ പദത്തിന്റെ അതിരുകൾ അടയാളപ്പെടുത്തുന്നില്ല, കൂടാതെ ആ ഭാഷകളിൽ വാചക വിഭജനം ഭാഷയിലെ പദങ്ങളുടെ പദാവലിയെക്കുറിച്ചുള്ള അറിവ് ആവശ്യമുള്ള ഒരു പ്രധാന കാര്യമാണ് . ഡാറ്റാ മൈനിംഗിൽ^[29] ബാഗ് ഓഫ് വേഡ്സ് (BOW)^[30] സൃഷ്ടിക്കൽ പോലുള്ള സന്ദർഭങ്ങളിലും ചിലപ്പോൾ ഈ പ്രക്രിയ ഉപയോഗിക്കുന്നു.

വാക്യഘടന വിശകലനം[തിരുത്തുക]

വാക്യം വിഭജനം ^[31][തിരുത്തുക]

വാചകത്തിന്റെ ഒരു ഭാഗം നൽകിയാൽ, വാക്യത്തിന്റെ അതിരുകൾ കണ്ടെത്തുക.

പാഴ്‌സിംഗ്^[32][തിരുത്തുക]

തന്നിരിക്കുന്ന വാക്യത്തിന്റെ പാഴ്‌സ് ട്രീ^[33] (വ്യാകരണ വിശകലനം) നിർണ്ണയിക്കുക. . രണ്ട് പ്രാഥമിക തരം പാഴ്‌സിംഗ് ഉണ്ട്: ഡിപൻഡൻസി പാഴ്‌സിംഗ്, കോൺസ്റ്റിട്യൂൺസി പാഴ്‌സിംഗ്. ഡിപൻഡൻസി പാഴ്‌സിംഗ് ഒരു വാക്യത്തിലെ വാക്കുകൾ തമ്മിലുള്ള ബന്ധത്തെ കേന്ദ്രീകരിക്കുന്നു , എന്നാൽ കോൺസ്റ്റിട്യൂൺസി പാഴ്‌സിംഗ് ഒരു പ്രോബബിലിസ്റ്റിക് കോൺടെക്സ്റ്റ്-ഫ്രീ^[34] വ്യാകരണം (പിസിഎഫ്ജി) ഉപയോഗിച്ച് പാഴ്‌സ് ട്രീ നിർമ്മിക്കുന്നതിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു.

ലെക്സിക്കൽ സെമാന്റിക്‌സ് (സന്ദർഭത്തിലെ വ്യക്തിഗത പദങ്ങളുടെ)[തിരുത്തുക]

ലെക്സിക്കൽ സെമാന്റിക്‌സ്^[35][തിരുത്തുക]

സന്ദർഭത്തിൽ വ്യക്തിഗത പദങ്ങളുടെ കമ്പ്യൂട്ടേഷണൽ അർഥം എന്താണ് എന്ന കടുപ്പിക്കുക .

ഡിസ്ട്രിബൂഷനാൽ സെമാന്റിക്സ്^[36][തിരുത്തുക]

ഡാറ്റയിൽ നിന്ന് നമുക്ക് എങ്ങനെ സെമാന്റിക് പ്രാതിനിധ്യം പഠിക്കാൻ കഴിയും?

നെയിംഡ്എ ന്റിറ്റി റെക്കഗ്നിഷൻ (NER)^[37][തിരുത്തുക]

വാചകത്തിന്റെ ഒരു സ്ട്രീം നൽകിയാൽ, ആളുകൾ അല്ലെങ്കിൽ സ്ഥലങ്ങൾ പോലുള്ള ശരിയായ പേരുകളിലേക്ക് ടെക്സ്റ്റ് മാപ്പിലെ ഏതെല്ലാം ഇനങ്ങൾ എന്ന് നിർണ്ണയിക്കുക.

സെന്റിമെന്റ് വിശകലനം ^[38][തിരുത്തുക]

ടെക്സ്റ്റ് അനാലിസിസ്^[39] ടെക്നിക്കുകൾ ഉപയോഗിച്ച് ടെക്സ്റ്റ് ഡാറ്റയ്ക്കുള്ളിലെ വികാരങ്ങളുടെ^[40] (പോസിറ്റീവ്, നെഗറ്റീവ്, ന്യൂട്രൽ) വ്യാഖ്യാനവും വർഗ്ഗീകരണവുമാണ് സെന്റിമെന്റ് വിശകലനം.

ടെർമിനോളജി എക്സ്ട്രാക്ഷൻ^[41][തിരുത്തുക]

തന്നിരിക്കുന്ന കോർപ്പസിൽ നിന്ന് പ്രസക്തമായ പദങ്ങൾ സ്വപ്രേരിതമായി എക്‌സ്‌ട്രാക്റ്റുചെയ്യുക എന്നതാണ് ടെർമിനോളജി എക്‌സ്‌ട്രാക്റ്റേഷന്റെ ലക്ഷ്യം.

രൂപാന്തര വിശകലനം (മോർഫോളജിക്കൽ അനാലിസിസ് )[തിരുത്തുക]

ലെമ്മറ്റൈസേഷൻ^[42][തിരുത്തുക]

ഒരു വാക്കിന്റെ വ്യതിചലന അവസാനങ്ങൾ മാത്രം നീക്കം ചെയ്ത് അതിന്റെ അടിസ്ഥാന നിഘണ്ടു രൂപത്തിൽ ലഭിക്കുന്നതിനെയാണ് ലെമ്മ എന്ന് വിശേഷിപ്പിക്കുന്നത്.

മോർഫോളജിക്കൽ സെഗ്മെന്റേഷൻ^[43][തിരുത്തുക]

വാക്കുകളെ വ്യക്തിഗത മോർഫീമുകളായി വേർതിരിച്ച് മോർഫീമുകളുടെ ക്ലാസ് തിരിച്ചറിയുന്ന പ്രക്രിയയെയാണ് മോർഫോളജിക്കൽ സെഗ്മെന്റേഷൻ എന്ന് പറയുന്നത് .ഈ ടാസ്കിന്റെ ബുദ്ധിമുട്ട് പരിഗണിക്കപ്പെടുന്ന ഭാഷയുടെ രൂപശാസ്ത്രത്തിന്റെ^[44] (പദങ്ങളുടെ ഘടന) സങ്കീർണ്ണതയെ ആശ്രയിച്ചിരിക്കുന്നു.

സംഭാഷണത്തിന്റെ ടാഗിംഗ് (പാർട്ട്-ഓഫ്-സ്പീച് ടാഗിംഗ് )^[45][തിരുത്തുക]

ഒരു വാചകം നൽകിയാൽ, ഓരോ വാക്കിനും സംഭാഷണത്തിന്റെ ഭാഗം നിർണ്ണയിക്കുക. പല വാക്കുകൾക്കും, പ്രത്യേകിച്ച് പൊതുവായവയ്ക്ക്, സംഭാഷണത്തിന്റെ ഒന്നിലധികം ഭാഗങ്ങളായി പ്രവർത്തിക്കാൻ കഴിയും. ഉദാഹരണത്തിന്, "മണി" എന്ന ഒരു നാമം (മണി എത്രയായി ) അല്ലെങ്കിൽ (സ്കൂളിൽ മണി അടിച്ചു ) എന്ന് ആകാം. ചില ഭാഷകൾ‌ക്ക് മറ്റുള്ളവയേക്കാൾ‌ അവ്യക്തതയുണ്ട്. ചൈനീസ് അത്തരം അവ്യക്തതയ്ക്ക് സാധ്യതയുള്ള ഒരു ഭാഷയാണ്, കാരണം ഇത് വാക്കാൽ പ്രവചിക്കുന്ന സമയത്തുള്ള ഒരു ഭാഷയാണ് .

സ്റ്റെമ്മിംഗ്^[46][തിരുത്തുക]

വാക്കുകളെ അവയുടെ മൂലരൂപത്തിലേക്ക് എത്തിക്കുന്ന പ്രക്രിയ. (ഉദാ. "അടച്ചത്", "അടയ്ക്കൽ", "അടയ്ക്കുക", "അടുക്കുക" മുതലായവയുടെ മൂല വാക്ക് "അടയ്ക്കുക").

ഓപ്പൺ സോഴ്‌സ്^[47] എൻ‌എൽ‌പി ലൈബ്രറികൾ[തിരുത്തുക]

യഥാർത്ഥ ലോക ആപ്ലിക്കേഷനുകളിൽ എൻ‌എൽ‌പി പ്രയോഗിക്കാൻ ഈ ലൈബ്രറികൾ സഹായിക്കുന്നു.

അപ്പാച്ചെ ഓപ്പൺ‌എൻ‌എൽ‌പി:^[48] ^[49]ടോക്കനൈസറുകൾ^[50], വാക്യ വിഭജനം^[51], സംഭാഷണത്തിന്റെ ഭാഗം ടാഗുചെയ്യൽ(പാർട്ട്-ഓഫ്-സ്പീച് ടാഗിംഗ്)^[45], എന്റിറ്റി എക്‌സ്‌ട്രാക്ഷൻ^[37], ചങ്കിംഗ്, പാഴ്‌സിംഗ്^[52], കോർഫറൻസ് റെസലൂഷൻ എന്നിവയും അതിലേറെയും നൽകുന്ന ഒരു മെഷീൻ ലേണിംഗ് ടൂൾകിറ്റ്.
നാച്ചുറൽ ലാംഗ്വേജ് ടൂൾകിറ്റ് (എൻ‌എൽ‌ടി‌കെ)^[53]^[54]: വാചകം പ്രോസസ് ചെയ്യുന്നതിനും തരംതിരിക്കുന്നതിനും ടോക്കണൈസ് ചെയ്യുന്നതിനും സ്റ്റെമിംഗ്^[55], പാഴ്‌സിംഗ് ^[52]എന്നിവയ്‌ക്കും അതിലേറെ കാര്യങ്ങൾക്കുമായി മൊഡ്യൂളുകൾ നൽകുന്ന ഒരു പൈത്തൺ^[56] ലൈബ്രറി,
സ്റ്റാൻ‌ഫോർഡ് എൻ‌എൽ‌പി:^[57] പാർട്ട്-ഓഫ്-സ്പീച് ടാഗിംഗ്^[45], പേരുള്ള എന്റിറ്റി റെക്കഗ്‌നൈസർ,^[37] കോർ‌ഫറൻസ് റെസല്യൂഷൻ സിസ്റ്റം^[58], സെന്റിമെന്റ് അനാലിസിസ് ^[59]എന്നിവയും അതിലേറെയും നൽകുന്ന എൻ‌എൽ‌പി ഉപകരണങ്ങളുടെ ഒരു സ്യൂട്ട്.
മല്ലെറ് (MALLET^[60]^[61] ): ലേറ്റന്റ് ഡിറിക്ലെറ്റ് അലോക്കേഷൻ^[62], ഡോക്യുമെന്റ് ക്ലാസിഫിക്കേഷൻ^[63], ക്ലസ്റ്ററിംഗ്, ടോപ്പിക് മോഡലിംഗ്^[64], ഇൻഫർമേഷൻ എക്സ്ട്രാക്ഷൻ^[65] എന്നിവയും അതിലേറെയും നൽകുന്ന ഒരു ജാവ ^[66]പാക്കേജ്.

അവലംബം [തിരുത്തുക]

↑ "Linguistics", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-15, retrieved 2020-08-22
↑ "Computer science", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
↑ "Artificial intelligence", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-22, retrieved 2020-08-22
↑ ^4.0 ^4.1 "Data", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-19, retrieved 2020-08-22
↑ "Computer performance by orders of magnitude", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-06, retrieved 2020-08-22
↑ "Health care", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-15, retrieved 2020-08-22
↑ "Media (communication)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-20, retrieved 2020-08-22
↑ https://en.wikipedia.org/wiki/Finance
↑ "Human resources", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-21, retrieved 2020-08-22
↑ "Autocorrection", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-17, retrieved 2020-08-22
↑ "Detecting fake news online", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-17, retrieved 2020-08-22
↑ "Email filtering", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-07, retrieved 2020-08-22
↑ "Web search engine", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-09, retrieved 2020-08-22
↑ "Keyword", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
↑ "Siri", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-21, retrieved 2020-08-22
↑ "Amazon Alexa", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
↑ "Google Assistant", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-17, retrieved 2020-08-22
↑ "Optical character recognition", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
↑ ^19.0 ^19.1 "Speech recognition", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
↑ ^20.0 ^20.1 "Speech segmentation", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-15, retrieved 2020-08-22
↑ "Coarticulation", Wikipedia (in ഇംഗ്ലീഷ്), 2016-12-11, retrieved 2020-08-22
↑ "Analog signal", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-24, retrieved 2020-08-22
↑ "Speech synthesis", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-04, retrieved 2020-08-22
↑ "Lexical analysis", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-14, retrieved 2020-08-22
↑ "English language", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-21, retrieved 2020-08-22
↑ "Chinese language", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-20, retrieved 2020-08-22
↑ "Japanese language", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-19, retrieved 2020-08-22
↑ "Thai language", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-16, retrieved 2020-08-22
↑ "Data mining", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-15, retrieved 2020-08-22
↑ "Bag-of-words model", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-11, retrieved 2020-08-22
↑ "Sentence boundary disambiguation", Wikipedia (in ഇംഗ്ലീഷ്), 2019-12-18, retrieved 2020-08-22
↑ "Parsing", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
↑ "Parse tree", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-11, retrieved 2020-08-22
↑ "Probabilistic context-free grammar", Wikipedia (in ഇംഗ്ലീഷ്), 2020-04-15, retrieved 2020-08-22
↑ "Lexical semantics", Wikipedia (in ഇംഗ്ലീഷ്), 2020-06-09, retrieved 2020-08-22
↑ "Distributional semantics", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-21, retrieved 2020-08-22
↑ ^37.0 ^37.1 ^37.2 "Named-entity recognition", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-19, retrieved 2020-08-22
↑ "Sentiment analysis", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
↑ "Text mining", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
↑ "Emotion", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-20, retrieved 2020-08-22
↑ "Terminology extraction", Wikipedia (in ഇംഗ്ലീഷ്), 2020-04-02, retrieved 2020-08-22
↑ "Lemmatisation", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-16, retrieved 2020-08-22
↑ "Morphology (linguistics)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
↑ "Morphology (linguistics)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
↑ ^45.0 ^45.1 ^45.2 "Part-of-speech tagging", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-17, retrieved 2020-08-22
↑ "Stemming", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-29, retrieved 2020-08-22
↑ "Open source", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-17, retrieved 2020-08-22
↑ "Apache OpenNLP", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-10, retrieved 2020-08-22
↑ "Documentation - Apache OpenNLP". Retrieved 2020-08-22.
↑ "Tokenization". Retrieved 2020-08-22.
↑ "Text segmentation", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-29, retrieved 2020-08-22
↑ ^52.0 ^52.1 "Parsing", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22
↑ "Natural Language Toolkit — NLTK 3.5 documentation". Retrieved 2020-08-22.
↑ "Natural Language Toolkit", Wikipedia (in ഇംഗ്ലീഷ്), 2020-04-15, retrieved 2020-08-22
↑ "Stemming", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-29, retrieved 2020-08-22
↑ "Welcome to Python.org" (in ഇംഗ്ലീഷ്). Retrieved 2020-08-22.
↑ "The Stanford Natural Language Processing Group". Retrieved 2020-08-22.
↑ "The Stanford Natural Language Processing Group". Retrieved 2020-08-22.
↑ "Sentiment analysis", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
↑ "Mallet (software project)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-01, retrieved 2020-08-22
↑ "MALLET homepage". Retrieved 2020-08-22.
↑ "Latent Dirichlet allocation", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-28, retrieved 2020-08-22
↑ "Document classification", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22
↑ "Topic model", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-31, retrieved 2020-08-22
↑ "Information extraction", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-20, retrieved 2020-08-22
↑ "Java (programming language)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-22, retrieved 2020-08-22

[1] "Linguistics", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-15, retrieved 2020-08-22

[2] "Computer science", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22

[3] "Artificial intelligence", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-22, retrieved 2020-08-22

[:0-4] 4.0 ^4.1 "Data", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-19, retrieved 2020-08-22

[5] "Computer performance by orders of magnitude", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-06, retrieved 2020-08-22

[6] "Health care", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-15, retrieved 2020-08-22

[7] "Media (communication)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-20, retrieved 2020-08-22

[8] ttps://en.wikipedia.org/wiki/Finance

[9] "Human resources", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-21, retrieved 2020-08-22

[10] "Autocorrection", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-17, retrieved 2020-08-22

[11] "Detecting fake news online", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-17, retrieved 2020-08-22

[12] "Email filtering", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-07, retrieved 2020-08-22

[13] "Web search engine", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-09, retrieved 2020-08-22

[14] "Keyword", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22

[15] "Siri", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-21, retrieved 2020-08-22

[16] "Amazon Alexa", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22

[17] "Google Assistant", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-17, retrieved 2020-08-22

[18] "Optical character recognition", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22

[:1-19] 19.0 ^19.1 "Speech recognition", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22

[:2-20] 20.0 ^20.1 "Speech segmentation", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-15, retrieved 2020-08-22

[21] "Coarticulation", Wikipedia (in ഇംഗ്ലീഷ്), 2016-12-11, retrieved 2020-08-22

[22] "Analog signal", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-24, retrieved 2020-08-22

[23] "Speech synthesis", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-04, retrieved 2020-08-22

[24] "Lexical analysis", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-14, retrieved 2020-08-22

[25] "English language", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-21, retrieved 2020-08-22

[26] "Chinese language", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-20, retrieved 2020-08-22

[27] "Japanese language", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-19, retrieved 2020-08-22

[28] "Thai language", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-16, retrieved 2020-08-22

[29] "Data mining", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-15, retrieved 2020-08-22

[30] "Bag-of-words model", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-11, retrieved 2020-08-22

[31] "Sentence boundary disambiguation", Wikipedia (in ഇംഗ്ലീഷ്), 2019-12-18, retrieved 2020-08-22

[32] "Parsing", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22

[33] "Parse tree", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-11, retrieved 2020-08-22

[34] "Probabilistic context-free grammar", Wikipedia (in ഇംഗ്ലീഷ്), 2020-04-15, retrieved 2020-08-22

[35] "Lexical semantics", Wikipedia (in ഇംഗ്ലീഷ്), 2020-06-09, retrieved 2020-08-22

[36] "Distributional semantics", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-21, retrieved 2020-08-22

[:3-37] 37.0 ^37.1 ^37.2 "Named-entity recognition", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-19, retrieved 2020-08-22

[38] "Sentiment analysis", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22

[39] "Text mining", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22

[40] "Emotion", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-20, retrieved 2020-08-22

[41] "Terminology extraction", Wikipedia (in ഇംഗ്ലീഷ്), 2020-04-02, retrieved 2020-08-22

[42] "Lemmatisation", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-16, retrieved 2020-08-22

[43] "Morphology (linguistics)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22

[44] "Morphology (linguistics)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22

[:5-45] 45.0 ^45.1 ^45.2 "Part-of-speech tagging", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-17, retrieved 2020-08-22

[46] "Stemming", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-29, retrieved 2020-08-22

[47] "Open source", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-17, retrieved 2020-08-22

[48] "Apache OpenNLP", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-10, retrieved 2020-08-22

[49] "Documentation - Apache OpenNLP". Retrieved 2020-08-22.

[50] "Tokenization". Retrieved 2020-08-22.

[51] "Text segmentation", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-29, retrieved 2020-08-22

[:4-52] 52.0 ^52.1 "Parsing", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22

[53] "Natural Language Toolkit — NLTK 3.5 documentation". Retrieved 2020-08-22.

[54] "Natural Language Toolkit", Wikipedia (in ഇംഗ്ലീഷ്), 2020-04-15, retrieved 2020-08-22

[55] "Stemming", Wikipedia (in ഇംഗ്ലീഷ്), 2020-05-29, retrieved 2020-08-22

[56] "Welcome to Python.org" (in ഇംഗ്ലീഷ്). Retrieved 2020-08-22.

[57] "The Stanford Natural Language Processing Group". Retrieved 2020-08-22.

[58] "The Stanford Natural Language Processing Group". Retrieved 2020-08-22.

[59] "Sentiment analysis", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22

[60] "Mallet (software project)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-01, retrieved 2020-08-22

[61] "MALLET homepage". Retrieved 2020-08-22.

[62] "Latent Dirichlet allocation", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-28, retrieved 2020-08-22

[63] "Document classification", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-18, retrieved 2020-08-22

[64] "Topic model", Wikipedia (in ഇംഗ്ലീഷ്), 2020-07-31, retrieved 2020-08-22

[65] "Information extraction", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-20, retrieved 2020-08-22

[66] "Java (programming language)", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-22, retrieved 2020-08-22

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

ഉദാഹരണങ്ങൾ[തിരുത്തുക]

സാധാരണ എൻ‌എൽ‌പി കാര്യങ്ങൾ[തിരുത്തുക]

ടെക്സ്റ്റ്, സ്പീച്ച് പ്രോസസ്സിംഗ്[തിരുത്തുക]

ഒപ്റ്റിക്കൽ ക്യാരക്ടർ റെക്കഗ്നിഷൻ (OCR)[18][തിരുത്തുക]

സംഭാഷണ തിരിച്ചറിയൽ ( സ്പീച് റെക്കഗ്നിഷൻ ) [19][തിരുത്തുക]

സംഭാഷണ വിഭജനം (സ്പീച് സെഗ്മെന്റഷന്)[20][തിരുത്തുക]

ടെക്സ്റ്റ്-ടു-സ്പീച്ച്[23][തിരുത്തുക]

പദ വിഭജനം (ടോക്കണൈസേഷൻ)[24][തിരുത്തുക]

വാക്യഘടന വിശകലനം[തിരുത്തുക]

വാക്യം വിഭജനം [31][തിരുത്തുക]

പാഴ്‌സിംഗ്[32][തിരുത്തുക]

ലെക്സിക്കൽ സെമാന്റിക്‌സ് (സന്ദർഭത്തിലെ വ്യക്തിഗത പദങ്ങളുടെ)[തിരുത്തുക]

ലെക്സിക്കൽ സെമാന്റിക്‌സ്[35][തിരുത്തുക]

ഡിസ്ട്രിബൂഷനാൽ സെമാന്റിക്സ്[36][തിരുത്തുക]

നെയിംഡ്എ ന്റിറ്റി റെക്കഗ്നിഷൻ (NER)[37][തിരുത്തുക]

സെന്റിമെന്റ് വിശകലനം [38][തിരുത്തുക]

ടെർമിനോളജി എക്സ്ട്രാക്ഷൻ[41][തിരുത്തുക]