ქართული ენის კორპუსი ილიას სახელმწიფო უნივერსიტეტის ლინგვისტურ კვლევათა ინსტიტუტის მეგაპროექტია. იგი შეიქმნა 2009-2015 წლებში. ამ ეტაპზე კორპუსი მოიცავს 100 000 000-ზე მეტ სიტყვა-ფორმას და შედგება მონოლინგვური და ბილინგვური ქვეკორპუსებისგან. მონოლინგვურ კორპუსში წარმოდგენილია ორი ძირითადი სექცია:
ძველი და საშუალი ქართული ენის ქვეკორპუსები აგებულია, ერთი მხრივ, სხვა ენებთან და კულტურებთან ქართულის ურთიერთობისა (ბერძნული, სირიული, ქრისტიანული არაბული, სომხური) და, მეორე მხრივ, ქართული სამწერლობო-მთარგმნელობითი სკოლების (წინაათონური, ათონური, ანტიოქიური, ქართული ელინოფილური და ა.შ.) მიხედვით.
ბილინგვურ კორპუსში ამ ეტაპზე წარმოდგენილია „ვეფხისტყაოსნისა“ (ქართულ-ინგლისური) და „ქართლის ცხოვრების“ (ქართულ-სომხური) პარალელური კორპუსები. 2016 წელს დასრულდება მუშაობა „შუშანიკის წამების“ ქართულ-სომხურ და „პეტრე იბერის ცხოვრების“ ქართულ-სირიულ პარალელურ კორპუსებზე.
2012-2014 წლებში ლინგვისტურ კვლევათა ინსტიტუტში შეიქმნა და ქართული ენის კორპუსში ინტეგრირებულ იქნა თანამედროვე ქართული ენის ანალიზატორი. ამ ეტაპზე მუშავდება ლინგვისტური და ტექნოლოგიური სტანდარტები ძველი და საშუალი ქართული ენის მოდელირებისთვის.
ვებგვერდი: www.corpora.iliauni.edu.ge