ภาษาศาสตร์เชิงคำนวณ ประวัติความเป็นมา พัฒนาการ และการก่อตั้งภาษาศาสตร์คอมพิวเตอร์เป็นแนวทางทางวิทยาศาสตร์

ตั้งแต่ปี 2012 สถาบันภาษาศาสตร์แห่งมหาวิทยาลัยแห่งรัฐรัสเซียเพื่อมนุษยศาสตร์ได้ฝึกอบรมปริญญาโทภายใต้หลักสูตรปริญญาโท ภาษาศาสตร์เชิงคำนวณ(ทิศทาง ภาษาศาสตร์ขั้นพื้นฐานและประยุกต์). โปรแกรมนี้ออกแบบมาเพื่อเตรียมความพร้อมอย่างมืออาชีพ นักภาษาศาสตร์ผู้ที่เชี่ยวชาญทั้งพื้นฐานของภาษาศาสตร์และวิธีการวิจัยสมัยใหม่ ผู้เชี่ยวชาญการวิเคราะห์ งานวิศวกรรม และสามารถมีส่วนร่วมในการพัฒนาเทคโนโลยีคอมพิวเตอร์ภาษาที่เป็นนวัตกรรมใหม่ได้อย่างมีประสิทธิภาพ

ผู้พัฒนาโครงการวิจัยและพัฒนาที่สำคัญมีส่วนร่วมในกระบวนการศึกษา ระบบเชิงพาณิชย์ในด้านการประมวลผลข้อความอัตโนมัติซึ่งช่วยให้มั่นใจได้ถึงความเชื่อมโยงของการฝึกอบรมระดับปริญญาโทกับกระแสหลักของภาษาศาสตร์คอมพิวเตอร์สมัยใหม่ เอาใจใส่เป็นพิเศษจ่ายให้กับการมีส่วนร่วมของอาจารย์ในการประชุมรัสเซียและนานาชาติ

ในบรรดาอาจารย์ ได้แก่ ผู้เขียนหนังสือเรียนพื้นฐานเกี่ยวกับภาษาเฉพาะทาง ผู้เชี่ยวชาญระดับโลก ผู้จัดการโครงการระบบประมวลผลภาษาอัตโนมัติขนาดใหญ่: Ya.G. เทสเตเลตส์, I.M. โบกุสลาฟสกี้, V.I. เบลิคอฟ, V.I. Podlesskaya, V.P. เซเลกี, แอล.แอล. ไออมดิน, A.S. Starostin, S.A. Sharov รวมถึงพนักงานของบริษัทที่เป็นผู้นำระดับโลกในด้านภาษาศาสตร์คอมพิวเตอร์: IBM (ระบบ Watson), Yandex, ABBYY (Lingvo, FineReader, ระบบ Compreno)

พื้นฐานสำหรับการฝึกอบรมผู้เชี่ยวชาญในโปรแกรมนี้คือแนวทางโครงการ การมีส่วนร่วมของนักศึกษาปริญญาโทในงานวิจัยในสาขาภาษาศาสตร์คอมพิวเตอร์เกิดขึ้นบนพื้นฐานของมหาวิทยาลัยแห่งรัฐรัสเซียเพื่อมนุษยศาสตร์และบนพื้นฐานของ บริษัท ที่พัฒนาโปรแกรมในสาขา AOT (ABBYY, IBM ฯลฯ ) ซึ่ง แน่นอนว่าถือเป็นข้อดีอย่างมากสำหรับทั้งตัวอาจารย์เองและสำหรับนายจ้างที่เป็นไปได้ โดยเฉพาะอย่างยิ่งผู้เชี่ยวชาญที่เป็นเป้าหมายจะได้รับการยอมรับให้เข้าร่วมโปรแกรมปริญญาโทซึ่งมีการฝึกอบรมโดยนายจ้างในอนาคต

การสอบเข้า: "รูปแบบและวิธีการอย่างเป็นทางการ ภาษาศาสตร์สมัยใหม่" สามารถรับข้อมูลที่ถูกต้องเกี่ยวกับเวลาสอบได้จากเว็บไซต์ของภาควิชาปริญญาโทของ Russian State University for the Humanities

หัวหน้าผู้พิพากษา - หัวหน้า ศูนย์การศึกษาและวิทยาศาสตร์สำหรับภาษาศาสตร์คอมพิวเตอร์ ผู้อำนวยการฝ่ายวิจัยภาษาศาสตร์ที่ ABBYY วลาดิมีร์ พาฟโลวิช เซเลเกย์และวิทยาศาสตรดุษฎีบัณฑิต เวรา อิซาคอฟนา โพดเลสกายา .

หลักสูตรการสอบเข้าและสัมภาษณ์ สาขาวิชา “รูปแบบและวิธีการของภาษาศาสตร์สมัยใหม่”

ความเห็นเกี่ยวกับโปรแกรม

  • คำถามเกี่ยวกับโปรแกรมใดๆ สามารถมาพร้อมกับงานที่เกี่ยวข้องกับคำอธิบายปรากฏการณ์ทางภาษาเฉพาะที่เกี่ยวข้องกับส่วนของคำถาม: การสร้างโครงสร้าง คำอธิบายข้อจำกัด อัลกอริธึมที่เป็นไปได้สำหรับการก่อสร้างและ/หรือการระบุตัวตน
  • คำถามที่มีเครื่องหมายดอกจันเป็นทางเลือก (ปรากฏอยู่ใต้หมายเลข 3 บนตั๋ว) ความรู้เกี่ยวกับเนื้อหาที่เกี่ยวข้องถือเป็นโบนัสที่สำคัญสำหรับผู้สมัคร แต่ไม่จำเป็น
  • นอกเหนือจากคำถามเชิงทฤษฎีแล้ว ตั๋วสอบยังเสนอข้อความพิเศษ (ภาษาศาสตร์) ภาษาอังกฤษเป็นส่วนหนึ่งสำหรับการแปลและการอภิปรายอีกด้วย ผู้สมัครจะต้องแสดงให้เห็นถึงความสามารถที่น่าพอใจในด้านคำศัพท์ทางวิทยาศาสตร์ภาษาอังกฤษและทักษะการวิเคราะห์ข้อความทางวิทยาศาสตร์ ตัวอย่างของข้อความที่ไม่ควรก่อให้เกิดปัญหาร้ายแรงแก่ผู้สมัคร ด้านล่างนี้คือส่วนหนึ่งของบทความ https://en.wikipedia.org/wiki/Anaphora_(linguistics):

ในภาษาศาสตร์ anaphora (/əˈnæfərə/) คือการใช้นิพจน์ที่การตีความขึ้นอยู่กับนิพจน์อื่นในบริบท (ก่อนหน้าหรือภายหลัง) ในความหมายที่แคบลง anaphora คือการใช้สำนวนที่ขึ้นอยู่กับการแสดงออกก่อนหน้านี้โดยเฉพาะ และด้วยเหตุนี้จึงแตกต่างกับ cataphora ซึ่งเป็นการใช้สำนวนที่ขึ้นอยู่กับการแสดงออกภายหลัง คำ anaphoric (อ้างอิง) เรียกว่า anaphoric ตัวอย่างเช่น ในประโยคที่ Sally มาถึงแต่ไม่มีใครเห็นเธอ สรรพนาม her นั้นเป็นคำเปรียบเทียบ ซึ่งหมายถึง Sally ที่เคยเป็นมาก่อน ในประโยคก่อนที่เธอจะมาถึง ไม่มีใครเห็นแซลลี่ สรรพนามที่เธอหมายถึงภายหลังแซลลี่ ดังนั้นตอนนี้เธอจึงเป็นคำอุปมา (และเป็นคำเปรียบเทียบในความหมายที่กว้างกว่า แต่ไม่ใช่ความรู้สึกที่แคบกว่า) โดยปกติแล้ว การแสดงออกแบบอะนาโฟริกคือรูปแบบหรือการแสดงออกแบบ deictic (ขึ้นอยู่กับบริบท) ในรูปแบบอื่น ทั้ง anaphora และ cataphora เป็นสายพันธุ์ของ endophora ซึ่งหมายถึงบางสิ่งที่กล่าวถึงในที่อื่นในบทสนทนาหรือข้อความ

Anaphora เป็นแนวคิดที่สำคัญด้วยเหตุผลที่แตกต่างกันและในระดับที่แตกต่างกัน ประการแรก Anaphora บ่งชี้ว่าวาทกรรมถูกสร้างขึ้นและบำรุงรักษาอย่างไร ประการที่สอง Anaphora เชื่อมโยงองค์ประกอบทางวากยสัมพันธ์ที่แตกต่างกันเข้าด้วยกันในระดับประโยค ประการที่สาม anaphora นำเสนอความท้าทายต่อการประมวลผลภาษาธรรมชาติในภาษาศาสตร์เชิงคอมพิวเตอร์ เนื่องจากการระบุการอ้างอิงอาจเป็นเรื่องยาก และประการที่สี่ anaphora บอกบางสิ่งเกี่ยวกับวิธีการเข้าใจและประมวลผลภาษา ซึ่งเกี่ยวข้องกับสาขาวิชาภาษาศาสตร์ที่สนใจในด้านจิตวิทยาการรู้คิด

ประเด็นทางทฤษฎี

ปัญหาทั่วไปของภาษาศาสตร์

  • วัตถุประสงค์ของภาษาศาสตร์ ภาษาและคำพูด ซิงโครไนซ์และไดอะโครนี
  • ระดับภาษา แบบจำลองระดับภาษาที่เป็นทางการ
  • วากยสัมพันธ์และกระบวนทัศน์ แนวคิดเรื่องการกระจายสินค้า
  • รากฐานของการเปรียบเทียบระหว่างภาษา: ประเภท ลำดับวงศ์ตระกูล และภาษาศาสตร์อาเรีย
  • *ภาษาศาสตร์คณิตศาสตร์: วัตถุและวิธีการวิจัย

สัทศาสตร์

  • วิชาสัทศาสตร์. สัทศาสตร์เสียงและสัทศาสตร์
  • สัทศาสตร์แบบแบ่งส่วนและแบบเหนือส่วน ฉันทลักษณ์และน้ำเสียง
  • แนวคิดพื้นฐานของสัทวิทยา ประเภทของระบบสัทวิทยาและการประยุกต์ใช้สัทศาสตร์
  • *เครื่องมือคอมพิวเตอร์และวิธีการวิจัยด้านสัทศาสตร์
  • *การวิเคราะห์และสังเคราะห์คำพูด

สัณฐานวิทยา

  • เรื่องของสัณฐานวิทยา มอร์ฟ, มอร์ฟีม, อัลโลมอร์ฟ
  • การผันคำและการสร้างคำ
  • ความหมายทางไวยากรณ์และวิธีการนำไปปฏิบัติ หมวดหมู่ไวยากรณ์และไวยากรณ์ ความหมายทางไวยากรณ์ทางสัณฐานวิทยาและวากยสัมพันธ์
  • แนวคิดเรื่องรูปแบบคำ ก้านบท บทแทรก และกระบวนทัศน์
  • ส่วนของคำพูด; วิธีการพื้นฐานในการระบุส่วนของคำพูด
  • *แบบจำลองที่เป็นทางการสำหรับการอธิบายการผันคำและการสร้างคำ
  • *สัณฐานวิทยาในงานประมวลผลภาษาอัตโนมัติ: การตรวจตัวสะกด การย่อคำ การแท็ก POS

ไวยากรณ์

  • เรื่องของไวยากรณ์ วิธีแสดงความสัมพันธ์ทางวากยสัมพันธ์
  • วิธีการแสดงโครงสร้างวากยสัมพันธ์ของประโยค ข้อดีและข้อเสียของแผนผังและส่วนประกอบที่ต้องพึ่งพา
  • วิธีอธิบายลำดับเชิงเส้น ขาดการฉายภาพและการแตกของส่วนประกอบ แนวคิดเรื่องการเปลี่ยนแปลง การแปลงที่เกี่ยวข้องกับลำดับเชิงเส้น
  • ความสัมพันธ์ระหว่างวากยสัมพันธ์และอรรถศาสตร์: เวเลนซ์ โมเดลควบคุม แอกแทนต์และเซอร์คอนสแตนต์
  • Diathesis และหลักประกัน อนุพันธ์ของสารออกฤทธิ์
  • องค์กรการสื่อสารของคำพูด แก่นเรื่องและรูปแบบ ที่กำหนดและใหม่ ตรงกันข้าม
  • *ทฤษฎีวากยสัมพันธ์หลัก: MST, เจนเนราติวิสต์, ไวยากรณ์เชิงฟังก์ชัน, HPSG
  • *แบบจำลองทางคณิตศาสตร์ของไวยากรณ์: การจำแนกภาษาทางการตาม Chomsky อัลกอริธึมการรู้จำและความซับซ้อน

ความหมาย

  • เรื่องของความหมาย รูปภาพทางภาษาที่ไร้เดียงสาและเป็นวิทยาศาสตร์ของโลก สมมติฐานของซาเปียร์-วอร์ฟ
  • ความหมายในภาษาและคำพูด: ความหมายและการอ้างอิง ประเภทการอ้างอิง (สถานะ denotative)
  • ความหมายคำศัพท์ วิธีอธิบายความหมายของคำ
  • ความหมายทางไวยากรณ์ หมวดหมู่หลักโดยใช้ตัวอย่างภาษารัสเซีย
  • ความหมายของประโยค องค์ประกอบเชิงประพจน์ Deixis และ Anaphora ปริมาณและการเชื่อมต่อ กิริยา
  • ลำดับชั้นและความเป็นระบบของความหมายคำศัพท์ Polysemy และ homonymy โครงสร้างความหมายของคำพหุความหมาย แนวคิดเรื่องค่าคงที่และต้นแบบ
  • ความสัมพันธ์แบบกระบวนทัศน์และวากยสัมพันธ์ในคำศัพท์ ฟังก์ชันคำศัพท์
  • การตีความ. ภาษาของการตีความ โรงเรียนความหมายมอสโก
  • ความหมายและตรรกะ ค่าความจริงของคำสั่ง
  • ทฤษฎีการพูด คำพูดและพลังลวงตาของมัน การแสดง. การจำแนกประเภทของคำพูด
  • วลีวิทยา: รายการสินค้าและวิธีการอธิบายหน่วยวลี
  • *รูปแบบและวิธีการของความหมายเชิงรูปแบบ
  • *แบบจำลองอรรถศาสตร์ในภาษาศาสตร์คอมพิวเตอร์สมัยใหม่
  • *ความหมายการกระจายและการดำเนินงาน
  • *แนวคิดพื้นฐานของไวยากรณ์การก่อสร้าง

ประเภท

  • การจำแนกประเภทของภาษาแบบดั้งเดิม
  • ประเภทของหมวดหมู่ไวยากรณ์ของคำนามและกริยา
  • ประเภท ประโยคง่ายๆ. ประเภทหลักของการก่อสร้าง: กล่าวหา, ergative, ใช้งานอยู่
  • ประเภทของลำดับคำและความสัมพันธ์ของกรีนเบิร์ก ภาษาแยกซ้ายและขวา

พจนานุกรมศัพท์

  • คำศัพท์ในฐานะรายการวัฒนธรรม การแปรผันทางสังคมของคำศัพท์ การใช้ศัพท์ บรรทัดฐาน การจัดระบบ
  • ประเภทของพจนานุกรม (บนวัสดุรัสเซีย) การสะท้อนคำศัพท์ในพจนานุกรมประเภทต่างๆ
  • พจนานุกรมสองภาษาโดยใช้ภาษารัสเซีย
  • พจนานุกรมเชิงพรรณนาและกำหนด พจนานุกรมภาษามืออาชีพ
  • ข้อมูลเฉพาะของพจนานุกรมอธิบายหลักภาษารัสเซีย โครงสร้างของรายการพจนานุกรม ข้อมูลการตีความและสารานุกรม
  • คำศัพท์และไวยากรณ์ แนวคิดเกี่ยวกับรูปแบบภาษาเชิงบูรณาการในโรงเรียนความหมายมอสโก
  • *วิธีการของนักพจนานุกรมศัพท์
  • *วิธีการคลังข้อมูลในพจนานุกรม

ภาษาศาสตร์ของข้อความและวาทกรรม

  • แนวคิดของข้อความและวาทกรรม
  • กลไกของการสื่อสารแบบอินเทอร์เฟส ประเภทหลักของวิธีการใช้ภาษา
  • ประโยคที่เป็นหน่วยของภาษาและเป็นองค์ประกอบของข้อความ
  • เอกภาพเหนือวลี หลักการของการก่อตัวและการแยกออกจากกัน คุณสมบัติพื้นฐาน
  • หมวดหมู่หลักของการจัดหมวดหมู่ข้อความ (ประเภท สไตล์ ทะเบียน สาขาวิชา ฯลฯ)
  • *วิธีการจำแนกประเภทอัตโนมัติ

ภาษาศาสตร์สังคม

  • ปัญหาของวิชาและขอบเขตของภาษาศาสตร์สังคมธรรมชาติของสหวิทยาการ แนวคิดพื้นฐานของสังคมวิทยาและประชากรศาสตร์ ระดับ โครงสร้างภาษาและภาษาศาสตร์สังคม แนวคิดพื้นฐานและทิศทางของภาษาศาสตร์สังคม
  • การติดต่อทางภาษา การใช้สองภาษาและ diglossia กระบวนการที่แตกต่างและมาบรรจบกันในประวัติศาสตร์ของภาษา
  • ความแตกต่างทางสังคมของภาษา รูปแบบการดำรงอยู่ของภาษา ภาษาวรรณกรรม: การใช้งาน-บรรทัดฐาน-การเขียนโค้ด พื้นที่ใช้งานภาษา.
  • การขัดเกลาภาษา ลักษณะลำดับชั้นของอัตลักษณ์ทางสังคมและภาษา พฤติกรรมทางภาษาของแต่ละบุคคลและรูปแบบการสื่อสารของเขา
  • วิธีการวิจัยทางภาษาศาสตร์

ภาษาศาสตร์คอมพิวเตอร์

  • งานและวิธีการทางภาษาศาสตร์เชิงคำนวณ
  • ภาษาศาสตร์คอร์ปัส ลักษณะสำคัญของคดี
  • การเป็นตัวแทนความรู้ แนวคิดพื้นฐานของทฤษฎีเฟรมโดย M. Minsky ระบบเฟรมเน็ต
  • อรรถาภิธานและภววิทยา เวิร์ดเน็ต
  • พื้นฐานของการวิเคราะห์ข้อความทางสถิติ พจนานุกรมความถี่ การวิเคราะห์การจัดระเบียบ
  • *แนวคิดของการเรียนรู้ของเครื่อง

วรรณกรรม

การศึกษา (ระดับพื้นฐาน)

บารานอฟ เอ.เอ็น.ภาษาศาสตร์ประยุกต์เบื้องต้น อ.: กองบรรณาธิการ URRS, 2544.

Baranov A.N. , Dobrovolsky D.O.พื้นฐานของวลี (หลักสูตรระยะสั้น) บทช่วยสอน. ฉบับที่ 2. มอสโก: ฟลินตา, 2014.

Belikov V.A., Krysin L.P.ภาษาศาสตร์สังคม M., มหาวิทยาลัยแห่งรัฐรัสเซียเพื่อมนุษยศาสตร์, 2544

Burlak S.A., Starostin S.A.ภาษาศาสตร์ประวัติศาสตร์เปรียบเทียบ ม.: สถาบันการศึกษา. 2548

วาคติน เอ็น.บี., โกลอฟโก อี.วี.ภาษาศาสตร์สังคมและสังคมวิทยาของภาษา เซนต์ปีเตอร์สเบิร์ก 2547

คนเนียเซฟ เอส.วี., โปซาริตสกายา เอส.เค.ภาษาวรรณกรรมรัสเซียสมัยใหม่: สัทศาสตร์ กราฟิก การสะกดคำ การสะกดคำ ฉบับที่ 2 ม., 2010

โคโบเซวา ไอ.เอ็ม.ความหมายทางภาษาศาสตร์ อ.: กองบรรณาธิการ URSS. 2547.

Kodzasov S.V., Krivnova O.F. สัทศาสตร์ทั่วไป. อ.: สสจ. 2544.

ครองเกาซ์ ม.อ.ความหมาย ม.: สสส. 2544.

ครองเกาซ์ ม.อ.ความหมาย: งาน การบ้าน ข้อความ ม.: สถาบันการศึกษา. 2549..

มาลอฟ ยู.เอส.ความรู้เบื้องต้นเกี่ยวกับภาษาศาสตร์ เอ็ด ที่ 6 ลบแล้ว อ.: Academy, ฟิล. ปลอม มหาวิทยาลัยแห่งรัฐเซนต์ปีเตอร์สเบิร์ก

พลุงยาน วี.เอ.สัณฐานวิทยาทั่วไป: ความรู้เบื้องต้นเกี่ยวกับเรื่องนี้ เอ็ด 2. อ.: กองบรรณาธิการ URSS, 2546.

Testelets Ya.G.รู้เบื้องต้นเกี่ยวกับไวยากรณ์ทั่วไป ม., 2544.

Shaikevich A.Ya.ความรู้เบื้องต้นเกี่ยวกับภาษาศาสตร์ ม.: สถาบันการศึกษา. 2548.

ทางวิทยาศาสตร์และการอ้างอิง

อาเปรสยัน ยุ.ดี.ผลงานคัดสรร เล่ม 1 ความหมายคำศัพท์: ฉบับพิมพ์ครั้งที่ 2, สเปน. และเพิ่มเติม อ.: โรงเรียน "ภาษาวัฒนธรรมรัสเซีย", 2538

อาเปรสยัน ยุ.ดี.ผลงานที่เลือก เล่มที่ 2 คำอธิบายเชิงบูรณาการของภาษาและระบบพจนานุกรม อ.: โรงเรียน "ภาษาวัฒนธรรมรัสเซีย", 2538

อาเปรสยัน ยุ.ดี.(เอ็ด) พจนานุกรมอธิบายใหม่ของคำพ้องความหมายของภาษารัสเซีย มอสโก - เวียนนา: "ภาษาของวัฒนธรรมรัสเซีย", Wiener Slavistischer Almanach, Sonderband 60, 2004

อาเปรสยัน ยุ.ดี.(ed.) ภาพทางภาษาศาสตร์ของโลกและพจนานุกรมศัพท์เชิงระบบ (ed. Yu. D. Apresyan) อ.: "ภาษาของวัฒนธรรมสลาฟ", 2549, คำนำและบท 1 หน้า 26 -- 74.

Bulygina T.V., Shmelev A.D.แนวความคิดทางภาษาศาสตร์ของโลก (ตามไวยากรณ์ภาษารัสเซีย) อ.: โรงเรียน "ภาษาวัฒนธรรมรัสเซีย", 2540

ไวน์ไรช์ ดับเบิลยู.การติดต่อทางภาษา เคียฟ, 1983.

เวซบิทสกายา เอ.ความหมายสากลและคำอธิบายของภาษา อ.: โรงเรียน "ภาษาวัฒนธรรมรัสเซีย" 1999.

กัลเปริน ไอ.อาร์.ข้อความเป็นวัตถุหนึ่งของการวิจัยทางภาษา ฉบับที่ 6 อ.: LKI, 2551 ("มรดกทางภาษาแห่งศตวรรษที่ 20")

ซาลิซเนียค เอ.เอ.“การผันคำนามของรัสเซีย” พร้อมการประยุกต์ใช้งานที่เลือกสรรเกี่ยวกับภาษารัสเซียสมัยใหม่และภาษาศาสตร์ทั่วไป อ.: ภาษาของวัฒนธรรมสลาฟ, 2545.

ซาลิซเนียค เอ.เอ., ปาดูเชวา อี.วี.ไปสู่ประเภทของอนุประโยคที่เกี่ยวข้อง / สัญศาสตร์และวิทยาการคอมพิวเตอร์ เล่มที่ 35. ม., 1997, น. 59-107.

อีวานอฟ เวียช. ดวงอาทิตย์..ภาษาศาสตร์ของสหัสวรรษที่สาม คำถามสำหรับอนาคต ม. 2547 หน้า 89-100 (11. สถานการณ์ภาษาในโลกและการพยากรณ์ในอนาคตอันใกล้นี้)

กิบริก เอ.อี.บทความเรื่องทั่วไปและประเด็นประยุกต์ทางภาษาศาสตร์ อ.: สำนักพิมพ์มหาวิทยาลัยแห่งรัฐมอสโก, 2535

กิบริก เอ.อี.ค่าคงที่และตัวแปรของภาษา เซนต์ปีเตอร์สเบิร์ก: Aletheya, 2003

ลาบอฟ ยู.ว่าด้วยกลไกของการเปลี่ยนแปลงภาษา // ใหม่ในภาษาศาสตร์. ฉบับที่ 7 ม., 1975. หน้า 320-335.

ลียง เจ.ความหมายทางภาษาศาสตร์: บทนำ อ.: ภาษาของวัฒนธรรมสลาฟ 2546.

ลียง จอห์น.ภาษาและภาษาศาสตร์ หลักสูตรเบื้องต้น อ: URSS, 2004

ลาคอฟฟ์ เจ.ผู้หญิง ไฟ และสิ่งอันตราย: ประเภทของภาษาบอกเราเกี่ยวกับการคิดอย่างไร อ.: ภาษาของวัฒนธรรมสลาฟ 2547.

ลาคอฟฟ์ เจ, จอห์นสัน เอ็ม. คำอุปมาอุปไมยที่เราอาศัยอยู่ ต่อ. จากอังกฤษ ฉบับที่ 2 ม.: สสส. 2551.

ภาษาศาสตร์ พจนานุกรมสารานุกรม/ เอ็ด. ในและ ยาร์ตเซวา. อ.: สำนักพิมพ์วิทยาศาสตร์ "Big Russian Encyclopedia", 2545

เมลชุค ไอ.เอ.หลักสูตรสัณฐานวิทยาทั่วไป ตท. I-IV มอสโก-เวียนนา: "ภาษาของวัฒนธรรมสลาฟ", Wiener Slavistischer Almanach, Sonderband 38/1-38/4, 1997-2001

เมลชุค ไอ.เอ.ประสบการณ์ทฤษฎีแบบจำลองทางภาษาศาสตร์ “ความหมาย ↔ ข้อความ” อ.: โรงเรียน "ภาษาวัฒนธรรมรัสเซีย", 2542

Fedorova L.L.สัญศาสตร์. ม., 2547.

ฟิลิปโปฟ เค.เอ.ภาษาศาสตร์ของข้อความ: หลักสูตรการบรรยาย - ฉบับที่ 2 ภาษาสเปน และเพิ่มเติม เอ็ด เซนต์ปีเตอร์สเบิร์ก มหาวิทยาลัย 2550

Haspelmath, M. , และคณะ. (บรรณาธิการ). โครงสร้างภาษาแผนที่โลก อ็อกซ์ฟอร์ด, 2548.

เครื่องเป่า, MS และ Haspelmath, M.(สหพันธ์) แผนที่โลกของโครงสร้างภาษาออนไลน์ ไลพ์ซิก: สถาบันมานุษยวิทยาวิวัฒนาการมักซ์พลังค์, 2013 (http://wals.info)

ครอฟท์ ดับเบิลยู.ประเภทและสากล เคมบริดจ์: สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์, 2546 Shopen, T. (เอ็ด.). ประเภทของภาษาและคำอธิบายทางวากยสัมพันธ์ ฉบับที่ 2. เคมบริดจ์ 2550

V. I. Belikov เกี่ยวกับพจนานุกรม “ที่มีบรรทัดฐานของรัสเซียสมัยใหม่ ภาษาวรรณกรรมเมื่อใช้เป็น ภาษาของรัฐ สหพันธรัฐรัสเซีย" 2010 // พอร์ทัล Gramota.Ru (http://gramota.ru/biblio/research/slovari-norm)

ภาษาศาสตร์คอมพิวเตอร์และเทคโนโลยีทางปัญญา: อ้างอิงจากเนื้อหาของการประชุมนานาชาติประจำปี "Dialogue" ฉบับที่ 1-11. - M.: สำนักพิมพ์ Nauka จาก Russian State University for the Humanities, 2545-2555 (บทความเกี่ยวกับภาษาศาสตร์เชิงคำนวณ http://www.dialog-21.ru)

คลังข้อมูลแห่งชาติของภาษารัสเซีย: 2549-2551 ผลลัพธ์ใหม่และโอกาส / ตัวแทน เอ็ด วี.เอ. พลุงยาน. - เซนต์ปีเตอร์สเบิร์ก: Nestor-History, 2009.

ใหม่ในภาษาศาสตร์ต่างประเทศ ฉบับที่ XXIV ภาษาศาสตร์คอมพิวเตอร์ / คอมพ์ บี.ยู.โกโรเดตสกี้. อ.: ความก้าวหน้า, 2532.

Shimchuk E. G. พจนานุกรมภาษารัสเซีย: หนังสือเรียน. อ.: สถาบันการศึกษา, 2552.

คลังข้อมูลแห่งชาติของภาษารัสเซีย: 2546-2548 สรุปบทความ อ.: อินดริก, 2548.

สำหรับการติดต่อ:

ศูนย์การศึกษาและวิทยาศาสตร์สำหรับภาษาศาสตร์คอมพิวเตอร์ของสถาบันภาษาศาสตร์แห่งมหาวิทยาลัยแห่งรัฐรัสเซียเพื่อมนุษยศาสตร์

ที่ภาควิชาอักษรศาสตร์ มัธยมเศรษฐศาสตร์ เป็นหลักสูตรปริญญาโทใหม่ที่มุ่งเน้นด้านภาษาศาสตร์คอมพิวเตอร์ ยินดีต้อนรับผู้สมัครที่มีการศึกษาขั้นพื้นฐานด้านมนุษยศาสตร์และคณิตศาสตร์ และทุกคนที่สนใจในการแก้ปัญหาในสาขาวิทยาศาสตร์ที่มีแนวโน้มมากที่สุดสาขาหนึ่ง ผู้อำนวยการของบริษัท Anastasia Bonch-Osmolovskaya บอกกับทฤษฎีและผู้ปฏิบัติงานว่าภาษาศาสตร์เชิงคำนวณคืออะไร ทำไมหุ่นยนต์จึงไม่มาแทนที่มนุษย์ และสิ่งที่จะสอนในโปรแกรมปริญญาโท HSE ในด้านภาษาศาสตร์เชิงคำนวณ

โปรแกรมนี้เกือบจะเป็นโปรแกรมเดียวในรัสเซีย คุณเรียนที่ไหน?

ฉันเรียนที่ Moscow State University ในภาควิชาภาษาศาสตร์เชิงทฤษฎีและประยุกต์คณะอักษรศาสตร์ ฉันไม่ได้ไปที่นั่นทันที ตอนแรกฉันเข้าแผนกรัสเซีย แต่แล้วฉันก็สนใจภาษาศาสตร์อย่างจริงจัง และบรรยากาศที่ยังคงอยู่ในแผนกนี้ดึงดูดฉันจนทุกวันนี้ สิ่งที่สำคัญที่สุดที่มีอยู่ การติดต่อที่ดีระหว่างครูกับนักเรียนและความสนใจร่วมกัน

เมื่อฉันมีลูกและต้องการหาเลี้ยงชีพ ฉันเข้าศึกษาสาขาภาษาศาสตร์เชิงพาณิชย์ ในปี พ.ศ. 2548 ยังไม่ชัดเจนว่ากิจกรรมดังกล่าวเป็นอย่างไร ฉันทำงานในบริษัทภาษาต่างๆ: ฉันเริ่มต้นด้วยบริษัทเล็กๆ ที่เว็บไซต์ Public.ru - นี่คือไลบรารีสื่อประเภทหนึ่งที่ฉันเริ่มทำงานเกี่ยวกับเทคโนโลยีทางภาษา จากนั้น ฉันทำงานที่ Rosnanotech เป็นเวลาหนึ่งปี ซึ่งมีแนวคิดที่จะสร้างพอร์ทัลการวิเคราะห์เพื่อให้ข้อมูลในนั้นได้รับการจัดโครงสร้างโดยอัตโนมัติ จากนั้นฉันก็เป็นหัวหน้าแผนกภาษาศาสตร์ที่ บริษัท Avicomp ซึ่งเป็นการผลิตที่จริงจังในด้านภาษาศาสตร์คอมพิวเตอร์และเทคโนโลยีความหมาย ในเวลาเดียวกัน ฉันได้สอนวิชาภาษาศาสตร์คอมพิวเตอร์ที่ Moscow State University และพยายามทำให้มันทันสมัยมากขึ้น

แหล่งข้อมูลสองแห่งสำหรับนักภาษาศาสตร์: - ไซต์ที่สร้างขึ้นโดยนักภาษาศาสตร์เพื่อการวิจัยทางวิทยาศาสตร์และประยุกต์ที่เกี่ยวข้องกับภาษารัสเซีย นี่คือรูปแบบของภาษารัสเซียที่นำเสนอโดยใช้ข้อความจำนวนมากจากประเภทและช่วงเวลาที่แตกต่างกัน ข้อความมีการติดตั้งมาร์กอัปทางภาษาซึ่งคุณสามารถรับข้อมูลเกี่ยวกับความถี่ของปรากฏการณ์ทางภาษาบางอย่างได้ Wordnet - ฐานข้อมูลคำศัพท์ขนาดใหญ่ เป็นภาษาอังกฤษแนวคิดหลักของ Wordnet คือการเชื่อมโยงไม่ใช่คำ แต่เป็นการเชื่อมโยงความหมายเข้ากับเครือข่ายขนาดใหญ่เดียว สามารถดาวน์โหลด Wordnet และใช้สำหรับโครงการของคุณเองได้

ภาษาศาสตร์เชิงคำนวณทำหน้าที่อะไร?

นี่เป็นสาขาสหวิทยาการมากที่สุด สิ่งที่สำคัญที่สุดคือการทำความเข้าใจว่าเกิดอะไรขึ้นในโลกอิเล็กทรอนิกส์ และใครจะช่วยคุณทำสิ่งที่เฉพาะเจาะจง

เราถูกรายล้อมไปด้วยอย่างมาก จำนวนมากข้อมูลดิจิทัล มีโครงการธุรกิจมากมาย ความสำเร็จขึ้นอยู่กับการประมวลผลข้อมูล โครงการเหล่านี้อาจเกี่ยวข้องกับสาขาการตลาด การเมือง เศรษฐศาสตร์ และอื่นๆ และเป็นสิ่งสำคัญมากที่จะต้องสามารถจัดการข้อมูลนี้ได้อย่างมีประสิทธิภาพ - สิ่งสำคัญไม่ใช่แค่ความเร็วของการประมวลผลข้อมูลเท่านั้น แต่ยังรวมถึงความง่ายในการรับข้อมูลที่คุณต้องการหลังจากกรองสัญญาณรบกวนแล้ว และสร้างข้อมูลที่สมบูรณ์ รูปภาพจากมัน

ก่อนหน้านี้ แนวคิดระดับโลกบางประการเกี่ยวข้องกับภาษาศาสตร์คอมพิวเตอร์ เช่น ผู้คนคิดว่าการแปลด้วยเครื่องจะเข้ามาแทนที่การแปลโดยมนุษย์ หุ่นยนต์จะทำงานแทนมนุษย์ แต่ตอนนี้ดูเหมือนเป็นยูโทเปีย และมีการใช้เครื่องแปลในเครื่องมือค้นหาเพื่อค้นหาอย่างรวดเร็วในภาษาที่ไม่รู้จัก นั่นคือ ในปัจจุบัน ภาษาศาสตร์ไม่ค่อยเกี่ยวข้องกับปัญหาที่เป็นนามธรรม ส่วนใหญ่แล้วจะเป็นเรื่องเล็กๆ น้อยๆ ที่สามารถแทรกลงในผลิตภัณฑ์ขนาดใหญ่และสร้างรายได้จากมันได้

งานใหญ่อย่างหนึ่งของภาษาศาสตร์สมัยใหม่คือเว็บเชิงความหมาย เมื่อการค้นหาเกิดขึ้นไม่เพียงแต่โดยการจับคู่คำเท่านั้น แต่ยังตามความหมาย และไซต์ทั้งหมดถูกทำเครื่องหมายด้วยความหมายไม่ทางใดก็ทางหนึ่ง สิ่งนี้อาจมีประโยชน์ เช่น สำหรับรายงานของตำรวจหรือการแพทย์ที่เขียนทุกวัน การวิเคราะห์การเชื่อมต่อภายในให้ประโยชน์มากมาย ข้อมูลที่จำเป็นและการอ่านและการนับด้วยตนเองนั้นใช้เวลานานอย่างไม่น่าเชื่อ

โดยสรุป เรามีข้อความนับพัน เราต้องจัดเรียงมันออกเป็นกลุ่ม นำเสนอแต่ละข้อความในรูปแบบของโครงสร้าง และรับตารางที่เราสามารถทำงานได้อยู่แล้ว สิ่งนี้เรียกว่าการประมวลผลข้อมูลที่ไม่มีโครงสร้าง ในทางกลับกัน ภาษาศาสตร์เชิงคำนวณเกี่ยวข้องกับการสร้างข้อความประดิษฐ์ มีบริษัทแห่งหนึ่งที่มีกลไกในการสร้างข้อความในหัวข้อที่น่าเบื่อสำหรับคนที่จะเขียน: การเปลี่ยนแปลงของราคาอสังหาริมทรัพย์ พยากรณ์อากาศ รายงานการแข่งขันฟุตบอล การสั่งข้อความเหล่านี้สำหรับบุคคลมีราคาแพงกว่ามากและข้อความคอมพิวเตอร์ในหัวข้อดังกล่าวเขียนด้วยภาษามนุษย์ที่สอดคล้องกัน

Yandex มีส่วนร่วมอย่างแข็งขันในการพัฒนาในด้านการค้นหาข้อมูลที่ไม่มีโครงสร้างในรัสเซีย Kaspersky Lab ว่าจ้างกลุ่มวิจัยที่ศึกษาการเรียนรู้ของเครื่อง มีคนในตลาดที่พยายามคิดค้นสิ่งใหม่ ๆ ในด้านภาษาศาสตร์เชิงคำนวณหรือไม่?

**หนังสือเกี่ยวกับภาษาศาสตร์เชิงคำนวณ:**

แดเนียล จูราฟสกี้ การประมวลผลคำพูดและภาษา

Christopher Manning, Prabhakar Raghavan, Heinrich Schuetze, "ความรู้เบื้องต้นเกี่ยวกับการดึงข้อมูล"

Yakov Testelets “ความรู้เบื้องต้นเกี่ยวกับไวยากรณ์ทั่วไป”

การพัฒนาทางภาษาส่วนใหญ่เป็นทรัพย์สินของบริษัทขนาดใหญ่ แทบไม่มีอะไรสามารถพบได้ในสาธารณสมบัติ สิ่งนี้ทำให้การพัฒนาอุตสาหกรรมช้าลง เราไม่มีตลาดภาษาฟรีหรือโซลูชั่นแบบแพ็คเกจ

นอกจากนี้ยังขาดทรัพยากรสารสนเทศที่ครบถ้วน มีโครงการดังกล่าวเป็น National Corpus of the Russian Language นี่คือหนึ่งในอาคารระดับชาติที่ดีที่สุดในโลก ซึ่งมีการพัฒนาอย่างรวดเร็วและเปิดโอกาสอันเหลือเชื่อสำหรับการวิจัยทางวิทยาศาสตร์และประยุกต์ ความแตกต่างนั้นเกือบจะเหมือนกับในชีววิทยา - ก่อนการวิจัย DNA และหลังการวิจัย

แต่ไม่มีแหล่งข้อมูลมากมายในภาษารัสเซีย ดังนั้นจึงไม่มีความคล้ายคลึงกับแหล่งข้อมูลภาษาอังกฤษที่ยอดเยี่ยมเช่น Framenet - นี่คือเครือข่ายแนวคิดที่มีการนำเสนอการเชื่อมต่อที่เป็นไปได้ทั้งหมดของคำใดคำหนึ่งกับคำอื่นอย่างเป็นทางการ ตัวอย่างเช่นมีคำว่า "บิน" - ใครสามารถบินได้ที่ไหนคำนี้ใช้คำบุพบทคำใดที่รวมกับคำใดเป็นต้น แหล่งข้อมูลนี้ช่วยเชื่อมต่อภาษาด้วย ชีวิตจริงนั่นคือเพื่อติดตามว่าคำใดคำหนึ่งมีพฤติกรรมอย่างไรในระดับสัณฐานวิทยาและไวยากรณ์ มันมีประโยชน์มาก

ขณะนี้บริษัท Avicomp กำลังพัฒนาปลั๊กอินสำหรับค้นหาบทความที่มีเนื้อหาคล้ายกัน นั่นคือหากคุณสนใจบทความคุณสามารถดูประวัติของโครงเรื่องได้อย่างรวดเร็ว: หัวข้อเกิดขึ้นเมื่อใด สิ่งที่เขียน และเมื่อใดคือจุดสูงสุดของความสนใจในปัญหานี้ ตัวอย่างเช่น ด้วยความช่วยเหลือของปลั๊กอินนี้ คุณจะเริ่มต้นจากบทความเกี่ยวกับเหตุการณ์ในซีเรียเพื่อดูได้อย่างรวดเร็วว่าเหตุการณ์ต่างๆ มีการพัฒนาอย่างไรในปีที่ผ่านมา

กระบวนการเรียนรู้ในหลักสูตรปริญญาโทจะมีโครงสร้างอย่างไร?

การศึกษาที่ HSE ถูกจัดแยกเป็นโมดูล เช่นเดียวกับในมหาวิทยาลัยตะวันตก นักเรียนจะถูกแบ่งออกเป็นทีมเล็ก ๆ มินิสตาร์ทอัพ นั่นคือเราควรจะได้หลายทีม โครงการที่เสร็จสิ้นแล้ว. เราต้องการได้ผลิตภัณฑ์จริง ซึ่งเราจะเปิดให้ผู้คนเข้าชมและปล่อยให้เป็นสาธารณสมบัติ

ยกเว้น ผู้จัดการทันทีโครงการของนักเรียน เราต้องการค้นหาภัณฑารักษ์จากบรรดาผู้จ้างงานที่มีศักยภาพ เช่น จากยานเดกซ์คนเดียวกัน ซึ่งจะเล่นเกมนี้และให้คำแนะนำแก่นักเรียนด้วย

ฉันหวังว่าผู้คนจากหลากหลายสาขาจะมาเรียนหลักสูตรปริญญาโท: โปรแกรมเมอร์ นักภาษาศาสตร์ นักสังคมวิทยา นักการตลาด เราจะมีหลักสูตรการปรับตัวหลายหลักสูตรในด้านภาษาศาสตร์ คณิตศาสตร์ และการเขียนโปรแกรม จากนั้นเราจะมีหลักสูตรภาษาศาสตร์แบบจริงจังสองหลักสูตรและจะเกี่ยวข้องกับทฤษฎีภาษาศาสตร์ที่เป็นปัจจุบันที่สุด เราต้องการให้ผู้สำเร็จการศึกษาของเราสามารถอ่านและเข้าใจบทความทางภาษาศาสตร์สมัยใหม่ได้ มันเหมือนกันกับคณิตศาสตร์ เราจะมีหลักสูตรที่เรียกว่า "พื้นฐานทางคณิตศาสตร์ของภาษาศาสตร์คอมพิวเตอร์" ซึ่งจะสรุปสาขาวิชาคณิตศาสตร์ที่เป็นพื้นฐานของภาษาศาสตร์คอมพิวเตอร์สมัยใหม่

หากต้องการลงทะเบียนเรียนในหลักสูตรปริญญาโท คุณจะต้องผ่านการสอบเข้าด้านภาษาและผ่านการแข่งขันพอร์ตโฟลิโอ

นอกจากหลักสูตรหลักแล้ว ยังมีวิชาเลือกอีกหลายวิชา เราได้วางแผนไว้หลายรอบ โดยสองรอบมุ่งเน้นไปที่การศึกษาเชิงลึกของแต่ละหัวข้อ ซึ่งรวมถึง เช่น การแปลภาษาด้วยเครื่องและภาษาศาสตร์คอร์ปัส และในทางกลับกันเกี่ยวข้องกับด้านที่เกี่ยวข้อง เช่น , สื่อสังคม, การเรียนรู้ของเครื่องหรือมนุษยศาสตร์ดิจิทัล - หลักสูตรที่เราหวังว่าจะสอนเป็นภาษาอังกฤษ

ทิโมเฟเอวา มาเรีย คิริลลอฟนา
อักษรศาสตร์ดุษฎีบัณฑิต นักวิจัยอาวุโสจากห้องปฏิบัติการระบบลอจิก สถาบันคณิตศาสตร์ ตั้งชื่อตาม ส.ล. Soboleva SB RAS หัวหน้าภาควิชาภาษาศาสตร์พื้นฐานและประยุกต์ของสถาบันมนุษยธรรมแห่ง NSU สำเร็จการศึกษาจากภาควิชาภาษาศาสตร์คณิตศาสตร์ คณะมนุษยศาสตร์ โนโวซีบีสค์ มหาวิทยาลัยของรัฐ.
สาขาวิชาที่สนใจทางวิทยาศาสตร์: รากฐานทางปรัชญาและระเบียบวิธีของภาษาศาสตร์, ปัญหาเชิงตรรกะของความหมายและเชิงปฏิบัติของภาษาธรรมชาติ, การทำงาน แบบจำลองทางคณิตศาสตร์ภาษาธรรมชาติ ภาษาธรรมชาติ และภาษาทางการ

สตูคาเชฟ อเล็กเซย์ อิลิช
ผู้สมัครสาขาวิทยาศาสตร์กายภาพและคณิตศาสตร์ รองศาสตราจารย์ นักวิจัยอาวุโส สถาบันคณิตศาสตร์ซึ่งตั้งชื่อตาม ส.ล. Sobolev SB RAS รองศาสตราจารย์ภาควิชาคณิตศาสตร์และสารสนเทศแบบไม่ต่อเนื่องของคณะกลศาสตร์และคณิตศาสตร์ของ NSU รองศาสตราจารย์ภาควิชาภาษาศาสตร์พื้นฐานและประยุกต์ของสถาบันมนุษยธรรมของ NSU
งานวิจัยที่สนใจ: ตรรกะทางคณิตศาสตร์ ทฤษฎีการคำนวณ (ความสามารถในการคำนวณทั่วไป ความสามารถในการคำนวณในชุดที่ยอมรับได้ ความสามารถในการคำนวณ HF) ทฤษฎีแบบจำลอง (แบบจำลองเชิงสร้างสรรค์ การเป็นตัวแทนที่มีประสิทธิผลของระบบ องศาของความสามารถในการเป็นตัวแทน) การวิเคราะห์ด้วยคอมพิวเตอร์ ภาษาศาสตร์เชิงคณิตศาสตร์: อรรถศาสตร์ที่เป็นทางการ อรรถศาสตร์มอนตากิว ความหมายเชิงกระจาย

บาราคนิน วลาดิมีร์ โบริโซวิช
นักวิจัยชั้นนำในห้องปฏิบัติการทรัพยากรสารสนเทศที่สถาบันเทคโนโลยีคอมพิวเตอร์ SB RAS ศาสตราจารย์ภาควิชาแบบจำลองคณิตศาสตร์คณะกลศาสตร์และคณิตศาสตร์ NSU ศาสตราจารย์ภาควิชาระบบวิทยาการคอมพิวเตอร์และสารสนเทศทั่วไปคณะสารสนเทศ เทคโนโลยีของ NSU
สาขาวิชาที่สนใจทางวิทยาศาสตร์: การสร้างแบบจำลองของระบบข้อมูลแบบกระจาย, การสร้างอัลกอริธึมสำหรับการประมวลผลเอกสารข้อความกึ่งโครงสร้าง, ระบบอัตโนมัติของการวิเคราะห์ที่ซับซ้อนของข้อความบทกวี, ปัญหาด้านระเบียบวิธีในวิทยาการคอมพิวเตอร์

บรูช เอเลนา ปาฟโลฟน่า
นักศึกษาระดับสูงกว่าปริญญาตรีที่สถาบันสารสนเทศศาสตร์ซึ่งตั้งชื่อตาม A. P. Ershova SB RAS ผู้ช่วยภาควิชาภาษาศาสตร์พื้นฐานและประยุกต์ของสถาบันมนุษยธรรมแห่ง NSU นักภาษาศาสตร์คอมพิวเตอร์ที่บริษัท OnPositive
สาขาวิชาที่สนใจทางวิทยาศาสตร์: การประมวลผลภาษาธรรมชาติ, การเรียนรู้ของเครื่อง, ปัญญาประดิษฐ์

ปาฟลอฟสกี้ เยฟเกนีย์ นิโคลาวิช
ผู้สมัครสาขาวิทยาศาสตร์กายภาพและคณิตศาสตร์ สมาชิกของสภานักวิทยาศาสตร์รุ่นใหม่และผู้เชี่ยวชาญภายใต้รัฐบาลของภูมิภาคโนโวซีบีร์สค์ สมาชิกของสภาผู้เชี่ยวชาญของ Technopark ของ Novosibirsk Academgorodok ประธานคณะกรรมการจัดงาน Siberian Symposium on Data Science และ การประชุมทางวิศวกรรม
เป้าหมายทางวิชาชีพ: การจัดระบบแนวทางเพื่อกำหนดข้อกำหนดทางธุรกิจอย่างเป็นทางการในโครงการข้อมูลขนาดใหญ่

ปาลชูนอฟ มิทรี เยฟเกเนียวิช
นักวิจัยชั้นนำของสถาบันคณิตศาสตร์ที่ตั้งชื่อตาม S. L. Soboleva SB RAS หัวหน้าภาควิชาสารสนเทศทั่วไปของ NSU หัวหน้าแผนก "สถาบันคณิตศาสตร์และสารสนเทศแบบไม่ต่อเนื่อง" ของคณะกลศาสตร์และคณิตศาสตร์ของ NSU
ขอบเขตความสนใจทางวิทยาศาสตร์: ได้รับผลลัพธ์พื้นฐานเกี่ยวกับการศึกษาพีชคณิตแบบบูลีนที่มีอุดมคติเด่น (I-algebras)

สวิริเดนโก มิทรี อิวาโนวิช
พนักงานของสถาบันคณิตศาสตร์ของ SB RAS และ NSU นักธุรกิจ ผู้จัดงาน และเจ้าของร่วมของบริษัทเทคโนโลยีขั้นสูงที่ทำงานในด้านข้อมูล การสื่อสาร และเทคโนโลยีดิจิทัล มีส่วนร่วมในการวิจัยเกี่ยวกับการสร้างแบบจำลองเชิงความหมาย โดยได้รับทุนสนับสนุนจากมูลนิธิวิทยาศาสตร์รัสเซีย
สาขาวิชาที่สนใจทางวิทยาศาสตร์: ปรัชญา วิธีการ ตรรกะทางคณิตศาสตร์ประยุกต์ ผู้เขียนแนวคิดและทฤษฎีทางคณิตศาสตร์ของการสร้างแบบจำลองเชิงความหมายนำเสนอร่วมกับนักวิชาการ RAS S.S. Goncharov และ Yu.L. Ershov ในยุค 80 ของศตวรรษที่ผ่านมา ปัจจุบัน เขายังคงพัฒนาระเบียบวิธีและทฤษฎีทางคณิตศาสตร์ของแนวคิดนี้อย่างต่อเนื่อง และยังมีส่วนร่วมในการประยุกต์แนวคิดนี้ในสาขาต่างๆ อีกด้วย ทำงานเกี่ยวกับการสร้างระเบียบวิธี ทฤษฎีทางคณิตศาสตร์ และภาษาสำหรับธุรกรรมและสัญญาอัจฉริยะเชิงความหมาย โดยประยุกต์แนวคิดของการสร้างแบบจำลองเชิงความหมายที่เกี่ยวข้องกับ TRIZ และด้านอื่นๆ

ซาโวสยานอฟ อเล็กซานเดอร์ นิโคลาวิช
นักวิจัยชั้นนำในห้องปฏิบัติการจิตวิทยาสรีรวิทยาเชิงอนุพันธ์ของสถาบันวิจัยสรีรวิทยาและการแพทย์พื้นฐาน หัวหน้าห้องปฏิบัติการพันธุศาสตร์จิตวิทยาของสถาบันเซลล์วิทยาและพันธุศาสตร์ SB RAS ศาสตราจารย์ภาควิชาสารสนเทศทั่วไป คณะเทคโนโลยีสารสนเทศ มช. ศาสตราจารย์ภาควิชาภาษาศาสตร์พื้นฐานและประยุกต์ สถาบันมนุษยธรรมแห่ง NSU
ความสนใจทางวิทยาศาสตร์: สรีรวิทยาประสาทวิทยา จิตพันธุศาสตร์ ภาษาศาสตร์ประสาท วิธีการประมวลผลสัญญาณทางชีววิทยาด้วยคอมพิวเตอร์ การวิจัยมีวัตถุประสงค์เพื่อระบุปัจจัยเสี่ยงในการเกิดและการพัฒนาของโรคทางอารมณ์ในมนุษย์ ขึ้นอยู่กับสภาพทางสังคมและภูมิอากาศของชีวิต ส่วนหนึ่งของการวิจัยมีการสำรวจเพื่อ ภูมิภาคต่างๆรัสเซีย (ภูมิภาค Novosibirsk, Tyva, Yakutia, สาธารณรัฐอัลไต) และประเทศเพื่อนบ้าน (มองโกเลีย จีน) เพื่อรวบรวมวัสดุทางชีวภาพและการรวบรวมการบันทึก EEG ในสภาวะการทดลองต่างๆ เป้าหมายของการวิจัยคือการสร้างระบบการวินิจฉัยที่ช่วยให้สามารถประเมินความเสี่ยงของการหยุดชะงักของการควบคุมอารมณ์ของพฤติกรรมของมนุษย์ภายใต้สภาวะความเครียดที่เพิ่มขึ้น

นักภาษาศาสตร์คอมพิวเตอร์มีส่วนร่วมในการพัฒนาอัลกอริธึมการรู้จำข้อความและคำพูดการสังเคราะห์คำพูดประดิษฐ์การสร้างระบบการแปลความหมายและการพัฒนาปัญญาประดิษฐ์ (ในความหมายคลาสสิกของคำ - เพื่อทดแทนสติปัญญาของมนุษย์ - มัน ไม่น่าจะเคยปรากฏแต่ระบบผู้เชี่ยวชาญต่าง ๆ ขึ้นอยู่กับการวิเคราะห์ข้อมูล)

อัลกอริธึมการรู้จำเสียงจะถูกใช้มากขึ้นในชีวิตประจำวัน - บ้านอัจฉริยะและอุปกรณ์อิเล็กทรอนิกส์จะไม่มีรีโมทคอนโทรลและปุ่ม แต่จะใช้อินเทอร์เฟซเสียงแทน เทคโนโลยีนี้กำลังได้รับการปรับปรุง แต่ก็ยังมีความท้าทายมากมาย: เป็นการยากที่คอมพิวเตอร์จะจดจำคำพูดของมนุษย์เพราะว่า ผู้คนที่หลากหลายพวกเขาพูดแตกต่างออกไปมาก ดังนั้นตามกฎแล้ว ระบบการจดจำจึงทำงานได้ดีทั้งเมื่อได้รับการฝึกฝนสำหรับผู้พูดหนึ่งคนและปรับให้เข้ากับคุณสมบัติการออกเสียงของเขาแล้ว หรือเมื่อจำนวนวลีที่ระบบสามารถจดจำได้มีจำกัด (เช่น ในคำสั่งเสียงสำหรับ ทีวี)

ผู้เชี่ยวชาญในการสร้างโปรแกรมแปลความหมายยังคงมีงานอีกมากรออยู่ ในขณะนี้ อัลกอริธึมที่ดีได้รับการพัฒนาสำหรับการแปลเป็นและจากภาษาอังกฤษเท่านั้น มีปัญหามากมายที่นี่ - ภาษาที่แตกต่างกันมีโครงสร้างทางความหมายที่แตกต่างกันซึ่งแตกต่างกันแม้ในระดับของการสร้างวลีและไม่สามารถถ่ายทอดความหมายทั้งหมดของภาษาหนึ่งโดยใช้เครื่องมือความหมายของภาษาอื่นได้ นอกจากนี้ โปรแกรมจะต้องแยกแยะคำพ้องเสียง จดจำส่วนของคำพูดได้อย่างถูกต้อง และเลือกความหมายที่ถูกต้องของคำพหุความหมายที่เหมาะกับบริบท

การสังเคราะห์คำพูดเทียม (เช่น สำหรับหุ่นยนต์ที่บ้าน) ก็เป็นงานที่ต้องใช้ความอุตสาหะเช่นกัน เป็นการยากที่จะทำให้เสียงคำพูดที่สร้างขึ้นอย่างเป็นธรรมชาติสำหรับหูของมนุษย์นั้นเป็นเรื่องยาก เนื่องจากมีความแตกต่างนับล้านที่เราไม่ได้ใส่ใจ แต่ถ้าไม่มีทุกอย่างก็ไม่ "เหมือนเดิม" อีกต่อไป - การเริ่มต้นที่ผิดพลาด การหยุดชั่วคราว ความลังเล ฯลฯ การไหลของคำพูดมีความต่อเนื่องและในเวลาเดียวกันแยกจากกัน: เราพูดโดยไม่หยุดระหว่างคำ แต่ก็ไม่ใช่เรื่องยากสำหรับเราที่จะเข้าใจว่าคำหนึ่งสิ้นสุดและอีกคำหนึ่งเริ่มต้นอย่างไร แต่สำหรับเครื่องจักรนี่อาจเป็นปัญหาใหญ่

ทิศทางที่ใหญ่ที่สุดในภาษาศาสตร์คอมพิวเตอร์เกี่ยวข้องกับข้อมูลขนาดใหญ่ ท้ายที่สุดแล้ว มีคลังข้อความจำนวนมาก เช่น ฟีดข่าว ซึ่งจำเป็นต้องแยกข้อมูลบางอย่างออกไป เช่น เน้นฟีดข่าวหรือปรับแต่ง RSS ให้เหมาะกับรสนิยมของผู้ใช้โดยเฉพาะ เทคโนโลยีดังกล่าวมีอยู่แล้วและจะยังคงพัฒนาต่อไป เนื่องจากพลังการประมวลผลมีการเติบโตอย่างรวดเร็ว การวิเคราะห์ทางภาษาข้อความยังใช้เพื่อความปลอดภัยทางอินเทอร์เน็ตและค้นหาข้อมูลที่จำเป็นสำหรับบริการข่าวกรอง

จะเรียนที่ไหนเพื่อเป็นนักภาษาศาสตร์คอมพิวเตอร์? ในประเทศของเรา น่าเสียดาย ความเชี่ยวชาญพิเศษที่เกี่ยวข้องกับภาษาศาสตร์คลาสสิกและการเขียนโปรแกรม สถิติ และการวิเคราะห์ข้อมูลค่อนข้างแยกจากกัน และเพื่อที่จะเป็นนักภาษาดิจิทัลได้ คุณต้องเข้าใจทั้งสองอย่าง มหาวิทยาลัยต่างประเทศมีโปรแกรมการศึกษาระดับสูงในด้านภาษาศาสตร์คอมพิวเตอร์ แต่ตอนนี้ทางเลือกที่ดีที่สุดสำหรับเราคือการได้รับการศึกษาด้านภาษาขั้นพื้นฐานแล้วจึงเชี่ยวชาญพื้นฐานของไอที เป็นเรื่องดีที่ปัจจุบันมีหลักสูตรออนไลน์ต่างๆ มากมาย แต่น่าเสียดายที่ช่วงที่ฉันยังเป็นนักศึกษาอยู่ไม่เป็นเช่นนั้น ฉันเรียนที่คณะภาษาศาสตร์ประยุกต์ที่ Moscow State Linguistics University ซึ่งเรามีหลักสูตรเกี่ยวกับปัญญาประดิษฐ์และการรับรู้ คำพูดด้วยวาจา-แต่ยังมีปริมาณไม่เพียงพอ ขณะนี้บริษัทไอทีกำลังพยายามโต้ตอบกับสถาบันต่างๆ เพื่อนร่วมงานของฉันจาก Kaspersky Lab และฉันก็พยายามมีส่วนร่วมในกระบวนการศึกษาด้วย เราบรรยาย จัดการประชุมนักศึกษา และมอบทุนสนับสนุนให้กับนักศึกษาระดับบัณฑิตศึกษา แต่จนถึงขณะนี้ความคิดริเริ่มนี้มาจากนายจ้างมากกว่าจากมหาวิทยาลัย

การแนะนำ

ภาษาศาสตร์เชิงคำนวณคืออะไร?

ภาษาศาสตร์คอมพิวเตอร์ ทิศทางในภาษาศาสตร์ประยุกต์เน้นการใช้เครื่องมือคอมพิวเตอร์ - โปรแกรม เทคโนโลยีคอมพิวเตอร์เพื่อจัดระเบียบและประมวลผลข้อมูล - เพื่อสร้างแบบจำลองการทำงานของภาษาในบางสภาวะ สถานการณ์ พื้นที่ปัญหา ฯลฯ ตลอดจนขอบเขตทั้งหมดของ การประยุกต์แบบจำลองภาษาคอมพิวเตอร์ในภาษาศาสตร์และสาขาวิชาที่เกี่ยวข้อง จริงๆแล้วเฉพาะในกรณีหลังและ เรากำลังพูดถึงเกี่ยวกับภาษาศาสตร์ประยุกต์ในความหมายที่เข้มงวด เนื่องจากการสร้างแบบจำลองภาษาด้วยคอมพิวเตอร์ถือได้ว่าเป็นสาขาหนึ่งของการประยุกต์ใช้วิทยาการคอมพิวเตอร์และทฤษฎีการเขียนโปรแกรมในการแก้ปัญหาทางวิทยาศาสตร์ของภาษา อย่างไรก็ตาม ในทางปฏิบัติ ภาษาศาสตร์เชิงคำนวณประกอบด้วยเกือบทุกอย่างที่เกี่ยวข้องกับการใช้คอมพิวเตอร์ในภาษาศาสตร์

ภาษาศาสตร์เชิงคำนวณกลายเป็นสาขาวิทยาศาสตร์พิเศษในทศวรรษ 1960 คำว่า "ภาษาศาสตร์คอมพิวเตอร์" ในภาษารัสเซียเป็นคำแปลจากภาษาศาสตร์คอมพิวเตอร์ภาษาอังกฤษ เนื่องจากคำคุณศัพท์การคำนวณในภาษารัสเซียสามารถแปลได้ว่า "การคำนวณ" คำว่า "ภาษาศาสตร์เชิงคำนวณ" จึงพบได้ในวรรณคดีด้วย แต่ในวิทยาศาสตร์รัสเซียจะใช้ความหมายที่แคบกว่าโดยเข้าใกล้แนวคิดของ "ภาษาศาสตร์เชิงปริมาณ" กระแสของสิ่งพิมพ์ในพื้นที่นี้มีขนาดใหญ่มาก นอกเหนือจากคอลเลกชั่นตามธีมแล้ว วารสาร Computer Linguistics ยังได้รับการตีพิมพ์ทุกไตรมาสในสหรัฐอเมริกา องค์กรมากขึ้นและ งานทางวิทยาศาสตร์ดำเนินการโดยสมาคมภาษาศาสตร์คอมพิวเตอร์ซึ่งมีโครงสร้างระดับภูมิภาค (โดยเฉพาะสาขายุโรป) ทุก ๆ สองปี จะมีการจัดการประชุมนานาชาติเกี่ยวกับภาษาศาสตร์เชิงคำนวณ (COLING) ประเด็นที่เกี่ยวข้องมักจะนำเสนออย่างกว้างขวางในการประชุมต่างๆ เกี่ยวกับปัญญาประดิษฐ์

งาน

ภาษาศาสตร์เชิงคำนวณ แก้ไขปัญหาทางภาษาที่แท้จริงของการสร้างแบบจำลองกิจกรรมทางภาษาด้วยคอมพิวเตอร์ วัตถุประสงค์คือเพื่อสร้างแบบจำลองทางภาษาที่แม่นยำและสมบูรณ์ยิ่งขึ้น ตลอดจนอัลกอริธึมการวิเคราะห์และการสังเคราะห์ขั้นสูงยิ่งขึ้น

ทิศทางหลักสามารถระบุได้:

1) ปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์: การควบคุม - ภาษาการเขียนโปรแกรม การถ่ายโอนข้อมูล - ส่วนต่อประสาน

2) การทำงานกับข้อความ: การจัดทำดัชนี การวิเคราะห์และการจำแนกประเภท การแก้ไขอัตโนมัติ (การแก้ไขข้อผิดพลาด) การระบุความรู้ การแปลด้วยคอมพิวเตอร์

เรื่องราว

การสร้างชุดย่อยของภาษาอังกฤษอย่างง่ายสำหรับการเข้าถึงฐานข้อมูลนั้นจัดทำโดยหนึ่งในระบบอเมริกันยุคแรก ๆ LIFER (สิ่งอำนวยความสะดวกอินเทอร์เฟซภาษาซึ่ง Elipsis และ Recursion) สร้างขึ้นในยุค 70 หลังจากนั้น ระบบอื่นๆ ที่มีความยืดหยุ่นมากขึ้นก็ปรากฏขึ้นในตลาดคอมพิวเตอร์ โดยมีอินเทอร์เฟซภาษาธรรมชาติที่จำกัดกับคอมพิวเตอร์

ในยุค 80 มีบริษัทจำนวนหนึ่งก่อตั้งขึ้นในสหรัฐอเมริกา โดยมีส่วนร่วมในการพัฒนาและจำหน่ายอินเทอร์เฟซภาษาธรรมชาติกับฐานข้อมูลและระบบผู้เชี่ยวชาญ ในปี 1985 Semantek Corporation นำเสนอแพ็คเกจซอฟต์แวร์ถามตอบดังกล่าว และบริษัท Carnegie Group เสนอแพ็คเกจ LanguageCraft ที่คล้ายกัน

งานที่กำลังดำเนินการอยู่กำลังดำเนินการเพื่อสร้างระบบการแปลอัตโนมัติ ระบบการแปลอัตโนมัติ SYSTRAN ซึ่งพัฒนาภายใต้การนำของ D. Tom สำหรับกองทัพอากาศสหรัฐฯ ได้กลายเป็นที่แพร่หลาย ระหว่างปี พ.ศ. 2517 - 2518 สมาคมการบินและอวกาศของนาซ่าใช้ระบบนี้เพื่อแปลเอกสารสำหรับโครงการอะพอลโล-โซยุซ ปัจจุบัน เธอแปลจากหลายภาษาประมาณ 100,000 หน้าต่อปี

ในยุโรป งานเกี่ยวกับการสร้างระบบการแปลด้วยคอมพิวเตอร์ได้รับแรงกระตุ้นจากการก่อตั้งระบบยุโรป เครือข่ายข้อมูล(ยูโรเน็ต ไดอาน่า). ในปีพ.ศ. 2525 ประชาคมเศรษฐกิจยุโรปได้ประกาศจัดตั้งโครงการยุโรป EUROTRA โดยมีเป้าหมายเพื่อพัฒนาระบบการแปลโดยใช้คอมพิวเตอร์ช่วยสำหรับภาษายุโรปทั้งหมด โครงการนี้ประเมินเบื้องต้นไว้ที่ 12 ล้านดอลลาร์ ในปี 1987 ผู้เชี่ยวชาญได้กำหนดต้นทุนรวมของโครงการนี้ไว้ที่มากกว่า 160 ล้านดอลลาร์

ในญี่ปุ่น ศูนย์วิจัยภาษาศาสตร์คอมพิวเตอร์เกี่ยวกับโปรแกรมคอมพิวเตอร์รุ่นที่ 5 ทั่วประเทศที่ประกาศในปี 1981

มีโครงการทางทหารหลายโครงการเพื่อสร้างส่วนต่อประสานระหว่างมนุษย์กับเครื่องจักรในภาษาธรรมชาติ ในสหรัฐอเมริกาส่วนใหญ่ดำเนินการภายใต้กรอบของ Strategic Computer Initiative ซึ่งเป็นโครงการสิบปีที่กระทรวงกลาโหมนำมาใช้ในปี 2526 เป้าหมายคือการสร้างอาวุธและระบบทหาร "อัจฉริยะ" รุ่นใหม่ใน เพื่อให้มั่นใจถึงความเหนือกว่าทางเทคโนโลยีในระยะยาวของสหรัฐอเมริกา

โดยธรรมชาติแล้วผู้เชี่ยวชาญด้านปัญญาประดิษฐ์ซึ่งเชี่ยวชาญด้านคอมพิวเตอร์และภาษาโปรแกรมได้เริ่มแก้ไขปัญหาการทำความเข้าใจภาษาโดยใช้วิธีการของตนเองอย่างกระตือรือร้น มีการค้นหาอัลกอริธึมภาษาธรรมชาติ โปรแกรมการทำความเข้าใจภาษาที่ซับซ้อนถูกสร้างขึ้นสำหรับพื้นที่เฉพาะทางที่แคบมาก โปรแกรมแปลภาษาด้วยเครื่องบางส่วน และอื่นๆ อีกมากมายได้ถูกนำมาใช้ แต่ไม่มีความคืบหน้าในการแก้ปัญหาการทำความเข้าใจภาษา ภาษาและผู้คนเชื่อมโยงกันมากจนนักวิทยาศาสตร์ต้องจัดการกับปัญหาความเข้าใจของมนุษย์เกี่ยวกับโลก และนี่คือขอบเขตของปรัชญาอยู่แล้ว

แนวคิดพื้นฐานของภาษาศาสตร์