Urban Dictionary 2015 (DSL, LSD, TXT, PDF, DjVu) 1.0 [Сентябрь 2015 года, ENG]

Ответить на тему
Статистика раздачи
Размер:  8,18 GB   |    Зарегистрирован:  8 лет 5 месяцев   |    Скачан:  9 раз
Сидов:  203  [  0 KB/s  ]   Личеров:  31  [  0 KB/s  ]   Подробная статистика пиров
 
   
 
 
Автор Сообщение

Скачать Lingvo ®

Пол:

Стаж: 9 лет 1 месяц

Сообщений: 1031

Создавать темы 30-Окт-2015 04:05

[Цитировать]

Urban Dictionary 2015 (DSL, LSD, TXT, PDF, DjVu)
Год/Дата Выпуска: Сентябрь 2015 года
Версия: 1.0
Разработчик: www.urbandictionary.com
Сайт разработчика: www.urbandictionary.com
Разрядность: 32bit, 64bit
Язык интерфейса: Английский
Таблэтка: Не требуется
Системные требования: В зависимости от используемого приложения.
Описание: Urban Dictionary (www.urbandictionary.com) — давно и широко известный сетевой словарь современного английского языка. Часто его считают словарём сленга, но он, кажется, давно уже перерос это узкое предназначение. У словаря есть свои минусы и плюсы. С одной стороны, он переполнен слишком частными вокабулами и толкованиями, не имеющими общелингвистической ценности. С другой стороны — это цена свободного, ничем не ограниченного накопления огромного лингвистического материала. Объяснения многих явлений современного живого языка можно найти только в Urban Dictionary, по крайней мере быстро и легко. Словарь также может служить энциклопедическим справочником по многим явлениям в жизни англоязычных сообществ — как маргинальным, так и общераспространённым.
Данная локальная копия представляет состояние словаря на сентябрь 2015 года. Её преимущество не только в возможности пользоваться словарём без доступа к интернету, но и в удобствах полнотекстового поиска, предоставляемого разными программами, в форматах которых представлен словарь. Urban Dictionary можно считать огромным корпусом современного английского языка, пусть даже в его некодифицированном варианте, поэтому полнотекстовый поиск по нему при помощи всего инструментария шаблонов, регулярных выражений, морфологии и других расширений трудно переоценить.
Размеры словаря можно представить по следующей статистике:
Словарных заголовков — около 1 683 635.
Словарных карточек — около 1 418 551 (к некоторым карточкам привязано сразу несколько заголовков).
Всего интерпретаций — около 2 519 576 (внутри некоторых карточек бывает несколько десятков, а то и сотен толкований разных пользователей).
При создании локальной копии сохранялись все заголовки статей, толкования, примеры, данные пользовательского голосования и время создания статей. Не сохранялись изображения, аудио и видео, списки тегов (относящиеся к текущей статье другие заголовки), перекрёстные ссылки и ники создателей — то есть, сокращалась по возможности вся второстепенная информация с целью сократить объём без вреда для основных целей использования. Всё пропущенное при желании можно найти на сайте.
Я попытался представить материал в нескольких наиболее популярных форматах — можно скачивать только то, что вам нужно. Форматы, сжатие которых давало ощутимую экономию, представлены в виде zip-архивов. Ниже я перечислю состав раздачи с некоторыми примечаниями к каждому виду словаря.

Доп. информация

1. Исходный код словаря в формате DSL, разработанном первоначально для оболочки ABBYY Lingvo. Это отправная точка, так словарь сохранялся при извлечении материала скриптами. Если вам захочется переконвертировать словарь в какой-то другой формат, лучше всего будет скачать этот вариант. Также он будет полезен, если вы захотите изменить или дополнить форматирование словаря и скомпилировать его самостоятельно (галочку автоматической разметки при компиляции можно ставить).
Исходный код представлен в двух кодировках: в UTF-16 и UTF-8. Первая пригодится тем, кто захочет компилировать словарь под ABBYY Lingvo. Вторая подойдёт пользователям альтернативной оболочки — GoldenDict, поддерживающей работу с DSL без компиляции в кодировке UTF-8 (что сокращает объём DSL в два раза, если речь идёт о текстах преимущественно на английском языке). Возможно, этот же вариант может быть предложен в качестве первого знакомства с подобными словарями и приложениями для них. Последние версии GoldenDict снабжены широкими возможностями полнотекстового поиска, хотя, если не ошибаюсь, полноценной поддержки морфологии в них всё ещё нет — для этого лучше будет пользоваться ABBYY Lingvo.
Из-за ограничений формата DSL все заголовки длиннее 246 символов пришлось сократить (они завершаются многоточиями, их около 11; полные версии можно опять-таки посмотреть на сайте). По тем же причинам сокращению подверглись все «слова» (последовательности непробельных символов) длиннее 255 символов (они завершаются сочетанием [...], таких сокращений всего около 45).
2. Скомпилированные словари в формате LSD к трём последним версиям ABBYY Lingvo — x3 (14), x5 (15) и x6 (16). К каждому файлу приложен лог компиляции, чтобы вы могли удостовериться в безошибочности кода — во всех вариантах ошибок компиляции не было, лишь предупреждения о наличии в заголовках символов, выходящих за границы английского языка, что для широты Urban Dictionary довольно характерно.
3. Текстовые версии словаря. Они были получены путём очистки от тегов DSL, разбивки строк по ширине 80 символов и удобными для чтения отступами разных частей словарной статьи. Рекомендуется использовать моноширинные шрифты (в том числе и потому, что авторы статей часто применяют ASCII-графику). Наиболее удобные приложения для работы со словарём в текстовом формате — стандартный просмотровщик к Total Commander (Lister) и редактор UltraEdit. Они легко и быстро открывают огромные текстовые файлы, не загружая их целиком в память. UltraEdit поддерживает поиск с регулярными выражениями в обеих представленных кодировках текстового формата — UTF-16 и UTF-8 (при этом советую работать в этом редакторе с UTF-16 — хотя файл и больше, UltraEdit не будет тратить время на внутреннюю перекодировку, к которой программа иногда прибегает при работе с UTF-8). Lister одинаково легко просматривает оба больших файла в UTF-16 и UTF-8, но, к сожалению, поиск по регулярным выражениям для юникода в нём не предусмотрен; к счастью, в UTF-8 английский текст представлен в однобайтном виде, поэтому можно переключать файл UTF-8 в режим обычного текста и искать английский текст при помощи регулярных выражений, игнорируя нечитабельные места иноязычных вставок.
В текстовом и последующих форматах каждый заголовок статьи предваряется знаком •, его можно использовать при поиске только среди заголовков. Также при поиске по этим форматам стоит учитывать жёсткие переводы строк и отступы, вставленные в текст для читабельности.
Для тех, кто будет пользоваться менее мощными редакторами, предоставлены варианты текстового формата, разбитого на файлы по буквам английского алфавита — всего 27 частей, включая раздел «слов», начинающихся с неалфавитных символов. Этот вариант представлен zip-архивами с суффиксом «abc».
Размер текстового файла в UTF-16 — около 1,6 гигабайта, размер файла в UTF-8 — почти в два раза меньше. Каждый файл состоит из 29 293 360 строк.
4. Формат PDF, представляющий постраничный вариант текстового формата. Он также подан в двух видах.
а. Один большой файл (для компактности был выбран шрифт в 9 пунктов и печать двух колонок на странице — получился файл в 114 428 страниц). Файл успешно открывается по крайней мере в Adobe Acrobat (быстро), Sumatra PDF (чуть медленнее) и STDU Viewer (самый медленный вариант). Файлы PDF, как правило, читаются по частям, поэтому работа с этим форматом тоже не требует больших ресурсов памяти и 64-разрядных ОС.
б. Файл, разбитый по буквам английского алфавита. Шрифт увеличен, текст представлен в одной колонке, суммарное количество страниц — 437 214. Этот вариант также проиндексирован, что расширяет возможности и радикально ускоряет поиск в приложении Adobe Acrobat. К сожалению, мне не удалось проиндексировать предыдущий вариант (с целым файлом): несколько версий Adobe Acrobat на финальной стадии индексирования зацикливались, при этом файл индекса начинал расти и занимал всё свободное место на диске, сколько бы его ни было. Если вы найдёте возможность проиндексировать целый файл, дайте мне знать, и я добавлю индекс в раздачу. В принципе, с индексацией разделённого варианта PDF можно добиться той же гибкости поиска по словарю, что и в ABBYY Lingvo — использование морфологии и установка количества пропускаемых слов работает подобным образом, скорость индексированного поиска сопоставима, разве что учитывание порядка слов в Adobe Acrobat не предусмотрено.
5. Словарь в формате DjVu с разделением по буквам английского алфавита, продукт конвертации из формата PDF (всего 437 214 страниц). К сожалению, этот вариант значительно объёмнее по сравнению с PDF, и мне не удалось получить DjVu меньшего размера другими путями. Также у меня не получилось создать единый DjVu файл, который открывался бы в известных мне программах для просмотра DjVu, — если это у кого-то получится, тоже дайте, пожалуйста, знать, и я добавлю файл в раздачу.
К каждому формату предоставлены скриншоты с одним из подходящих приложений.

Скриншоты

Скриншоты окна About

[only-soft.org].t36814.torrent
Торрент: Зарегистрирован   [ 2015-10-30 04:05 ]

24 KB

Статус: проверено
Скачан: 9 раз
Размер: 8,18 GB
Оценка: 
(Голосов: 0)
Поблагодарили: 1  Спасибо   (список)
Urban Dictionary 2015 (DSL, LSD, TXT, PDF, DjVu) 1.0 [Сентябрь 2015 года, ENG] скачать торрент бесплатно и без регистрации
[Профиль] [ЛС]

asalihov

Стаж: 5 лет 2 месяца

Сообщений: 1

Создавать темы 19-Фев-2019 11:48 (спустя 3 года 3 месяца)

[Цитировать]

Поддайте скорости, пожалуйста!
[Профиль] [ЛС]
Форум Тема Автор Размер
Словари, переводчики [Lingvo 12 x3 x5] Urban Dictionary (ENG) [2009, LSD, DSL.rar] Скачать Lingvo 1,1 GB
Показать сообщения:    
Ответить на тему

Текущее время: Сегодня, в 22:19

Часовой пояс: GMT + 4



Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы можете скачивать файлы