Классический форум-трекер
canvas not supported
Нас вместе: 4 232 331

Urbandictionary.com | Urban Dictionary 2015 (2015) [DSL, LSD, TXT, PDF, DjVu] [En]


 
 
RSS
Начать новую тему   Ответить на тему    Торрент-трекер NNM-Club -> Научная и техническая литература -> Иностранные языки (литература)
Автор Сообщение
vmbvmbvmb ®
Стаж: 12 лет 2 мес.
Сообщений: 18
Ratio: 24.971
Поблагодарили: 362
20.83%
Urbandictionary.com | Urban Dictionary 2015 (2015) [DSL, LSD, TXT, PDF, DjVu] [En]
Автор: Urbandictionary.com
Жанр: Словарь
Язык: Английский
Формат: DSL, LSD, TXT, PDF, DjVu
Качество: Изначально электронное (ebook)
Иллюстрации: Без иллюстраций

Описание:
Urban Dictionary (www.urbandictionary.com) — давно и широко известный сетевой словарь современного английского языка. Часто его считают словарём сленга, но он, кажется, давно уже перерос это узкое предназначение. У словаря есть свои минусы и плюсы. С одной стороны, он переполнен слишком частными вокабулами и толкованиями, не имеющими общелингвистической ценности. С другой стороны — это цена свободного, ничем не ограниченного накопления огромного лингвистического материала. Объяснения многих явлений современного живого языка можно найти только в Urban Dictionary, по крайней мере быстро и легко. Словарь также может служить энциклопедическим справочником по многим явлениям в жизни англоязычных сообществ — как маргинальным, так и общераспространённым.

Данная локальная копия представляет состояние словаря на сентябрь 2015 года. Её преимущество не только в возможности пользоваться словарём без доступа к интернету, но и в удобствах полнотекстового поиска, предоставляемого разными программами. Urban Dictionary можно считать огромным корпусом современного английского языка, пусть даже в его некодифицированном варианте, поэтому полнотекстовый поиск по нему при помощи всего инструментария шаблонов, регулярных выражений, морфологии и других расширений трудно переоценить.

Размеры словаря можно представить по следующей статистике:

Словарных заголовков — около 1 683 635.
Словарных карточек — около 1 418 551 (к некоторым карточкам привязано сразу несколько заголовков).
Всего интерпретаций — около 2 519 576 (внутри некоторых карточек бывает несколько десятков, а то и сотен толкований разных пользователей).

При создании локальной копии сохранялись все заголовки статей, толкования, примеры, данные пользовательского голосования и время создания статей. Не сохранялись изображения, аудио и видео, списки тегов (относящиеся к текущей статье другие заголовки), перекрёстные ссылки и ники создателей — то есть, сокращалась по возможности вся второстепенная информация с целью уменьшить объём без вреда для основных целей использования. Всё пропущенное при желании можно найти на сайте.

Я попытался представить материал в нескольких наиболее популярных форматах — можно скачивать только то, что вам нужно. Форматы, сжатие которых давало ощутимую экономию, представлены в виде zip-архивов. Ниже я перечислю состав раздачи с некоторыми примечаниями к каждому виду словаря.
1. Исходный код словаря в формате DSL, разработанном первоначально для оболочки ABBYY Lingvo. Это отправная точка, так словарь сохранялся при извлечении материала скриптами. Если вам захочется переконвертировать словарь в какой-то другой формат, лучше всего будет скачать этот вариант. Также он будет полезен, если вы захотите изменить или дополнить форматирование словаря и скомпилировать его самостоятельно (галочку автоматической разметки при компиляции можно ставить).

Исходный код представлен в двух кодировках: в UTF-16 и UTF-8. Первая пригодится тем, кто захочет компилировать словарь под ABBYY Lingvo. Вторая подойдёт пользователям альтернативной оболочки — GoldenDict, поддерживающей работу с DSL без компиляции в кодировке UTF-8 (что сокращает объём DSL в два раза, если речь идёт о текстах преимущественно на английском языке). Возможно, этот же вариант может быть предложен в качестве первого знакомства с подобными словарями и приложениями для них. Последние версии GoldenDict снабжены широкими возможностями полнотекстового поиска, хотя, если не ошибаюсь, полноценной поддержки морфологии в них всё ещё нет — для этого лучше будет пользоваться ABBYY Lingvo.

Из-за ограничений формата DSL все заголовки длиннее 246 символов пришлось сократить (они завершаются многоточиями, их около 11; полные версии можно опять-таки посмотреть на сайте). По тем же причинам сокращению подверглись все «слова» (последовательности непробельных символов) длиннее 255 символов (они завершаются сочетанием [...], таких сокращений всего около 45).

2. Скомпилированные словари в формате LSD к трём последним версиям ABBYY Lingvo — x3 (14), x5 (15) и x6 (16). К каждому файлу приложен лог компиляции, чтобы вы могли удостовериться в безошибочности кода — во всех вариантах ошибок компиляции не было, лишь предупреждения о наличии в заголовках символов, выходящих за границы английского языка, что для широты Urban Dictionary довольно характерно.

3. Текстовые версии словаря. Они были получены путём очистки от тегов DSL, разбивки строк по ширине 80 символов и удобными для чтения отступами разных частей словарной статьи. Рекомендуется использовать моноширинные шрифты (в том числе и потому, что авторы статей часто применяют ASCII-графику). Наиболее удобные приложения для работы со словарём в текстовом формате — стандартный просмотровщик к Total Commander (Lister) и редактор UltraEdit. Они легко и быстро открывают огромные текстовые файлы, не загружая их целиком в память. UltraEdit поддерживает поиск с регулярными выражениями в обеих представленных кодировках текстового формата — UTF-16 и UTF-8 (при этом советую работать в этом редакторе с UTF-16 — хотя файл и больше, UltraEdit не будет тратить время на внутреннюю перекодировку, к которой программа иногда прибегает при работе с UTF-8). Lister одинаково легко просматривает оба больших файла в UTF-16 и UTF-8, но, к сожалению, поиск по регулярным выражениям для юникода в нём не предусмотрен; к счастью, в UTF-8 английский текст представлен в однобайтном виде, поэтому можно переключать файл UTF-8 в режим обычного текста и искать английский текст при помощи регулярных выражений, игнорируя нечитабельные места иноязычных вставок.

В текстовом и последующих форматах каждый заголовок статьи предваряется знаком •, его можно использовать при поиске только среди заголовков. Также при поиске по этим форматам стоит учитывать жёсткие переводы строк и отступы, вставленные в текст для читабельности.

Для тех, кто будет пользоваться менее мощными редакторами, предоставлены варианты текстового формата, разбитого на файлы по буквам английского алфавита — всего 27 частей, включая раздел «слов», начинающихся с неалфавитных символов. Этот вариант представлен zip-архивами с суффиксом «abc».

Размер текстового файла в UTF-16 — около 1,6 гигабайта, размер файла в UTF-8 — почти в два раза меньше. Каждый файл состоит из 29 293 360 строк.

4. Формат PDF, представляющий постраничный вариант текстового формата. Он также подан в двух видах.

а. Один большой файл (для компактности был выбран шрифт в 9 пунктов и печать двух колонок на странице — получился файл в 114 428 страниц). Файл успешно открывается по крайней мере в Adobe Acrobat (быстро), Sumatra PDF (чуть медленнее) и STDU Viewer (самый медленный вариант). Файлы PDF, как правило, читаются по частям, поэтому работа с этим форматом тоже не требует больших ресурсов памяти и 64-разрядных ОС.

б. Файл, разбитый по буквам английского алфавита. Шрифт увеличен, текст представлен в одной колонке, суммарное количество страниц — 437 214. Этот вариант также проиндексирован, что расширяет возможности и радикально ускоряет поиск в приложении Adobe Acrobat. К сожалению, мне не удалось проиндексировать предыдущий вариант (с целым файлом): несколько версий Adobe Acrobat на финальной стадии индексирования зацикливались, при этом файл индекса начинал расти и занимал всё свободное место на диске, сколько бы его ни было. Если вы найдёте возможность проиндексировать целый файл, дайте мне знать, и я добавлю индекс в раздачу. В принципе, с индексацией разделённого варианта PDF можно добиться той же гибкости поиска по словарю, что и в ABBYY Lingvo — использование морфологии и установка количества пропускаемых слов работает подобным образом, скорость индексированного поиска сопоставима, разве что учитывание порядка слов в Adobe Acrobat не предусмотрено.

5. Словарь в формате DjVu с разделением по буквам английского алфавита, продукт конвертации из формата PDF (всего 437 214 страниц). К сожалению, этот вариант значительно объёмнее по сравнению с PDF, и мне не удалось получить DjVu меньшего размера другими путями. Также у меня не получилось создать единый DjVu файл, который открывался бы в известных мне программах для просмотра DjVu, — если это у кого-то получится, тоже дайте, пожалуйста, знать, и я добавлю файл в раздачу.

К каждому формату предоставлены скриншоты с одним из подходящих приложений.
Скриншоты:

Время раздачи: Круглосуточно
[NNM-Club.me]_UrbanDictionary2015.torrent
 Торрент: Платиновая раздача  Зарегистрирован
 
Скачать


Примагнититься
 Зарегистрирован:   30 Окт 2015 01:24:13
 Размер:   8.18 GB  (
 Рейтинг:   5 (Голосов: 27)
 Поблагодарили:   95
 Проверка:   Оформление проверено модератором 02 Ноя 2015 21:29:35
Как cкачать  ·  Как раздать  ·  Правильно оформить  ·  Поднять ратио!  
podsoba
 
Стаж: 14 лет 5 мес.
Сообщений: 138
Ratio: 6.589
100%
Большая хорошая работа. Есть надежда что раздача будет обновлятся?
vmbvmbvmb ®
Стаж: 12 лет 2 мес.
Сообщений: 18
Ratio: 24.971
Поблагодарили: 362
20.83%
podsoba
Думаю, хорошо бы обновлять весь материал хотя бы раз в год — если не будут найдены какие-то важные ошибки или не появятся новые идеи или радикальные улучшения. Мне трудно загадывать, смогу ли я этим через год заниматься, но пока планирую.
evgenioni
Стаж: 16 лет 9 мес.
Сообщений: 80
Ratio: 1.408
Поблагодарили: 82
8.33%
serbia.gif
Огромное спасибо! материал превосходный!
Wolf Ramm
Стаж: 11 лет
Сообщений: 602
Ratio: 10.971
100%
Не совсем понял, в чём его полезность, если смысл слова расписан на английском же? Получается, это для носителей, либо круто знающих язык. Так?

_________________
Даже если ты один против всех, это ещё не значит, что ты не прав.
vmbvmbvmb ®
Стаж: 12 лет 2 мес.
Сообщений: 18
Ratio: 24.971
Поблагодарили: 362
20.83%
Wolf Ramm
Да, это толковый словарь, одноязычный. Не обязательно для круто знающих язык — просто для умеющих читать обычные тексты. Ценность его в том, что он объясняет много выражений, не входящих в обычные словари по разным причинам. Часто бывает полезен для понимания и перевода современной художественной или публицистической литературы, неформальной прессы, фильмов или сериалов.
vladimnick
Стаж: 13 лет 4 мес.
Сообщений: 4
Ratio: 1.016
3.2%
Крутейшая вещь. Пользуюсь на windows mobile. Пару лет назад ставил. Там два файла по 105Мб. А это обновление не пошло-видимо великоват размер. А как нарезать помельче? Подскажите...
vmbvmbvmb ®
Стаж: 12 лет 2 мес.
Сообщений: 18
Ratio: 24.971
Поблагодарили: 362
20.83%
vladimnick
Помню, был вариант, который не компилировался в LSD, поэтому его делили пополам, а я ещё делал сокращённый вариант (сокращал не текст словаря, а теги оформления и метаинформацию, вроде ников), который компилировался. Но сейчас мне удалось всё скомпилировать и так.

Вы ставите сразу LSD, и мобильный Lingvo отказывается его добавлять? Можно чуть подробнее, я просто никогда на мобильных устройствах не имел дела со словарями.
vladimnick
Стаж: 13 лет 4 мес.
Сообщений: 4
Ratio: 1.016
3.2%
Словарь не увиделся после того, как я его скопировал на SD-карту. После переустановки Лингво он увиделся, но Лингво не понравился формат. Чтобы быть точным- прямо сейчас повторю процедуру.

Добавлено спустя 17 минут 48 секунд:

"Неверный формат" на все три файла lsd.
Предыдущие словари, которые работают были под Лингво12. Хотя формат такой же...
vmbvmbvmb ®
Стаж: 12 лет 2 мес.
Сообщений: 18
Ratio: 24.971
Поблагодарили: 362
20.83%
vladimnick
Если я не ошибаюсь, под каждую версию Lingvo нужно компилировать словарь компилятором от этой версии. Если у вас на мобильном устройстве 12-я версия, стоит попробовать скомпилировать именно под эту версию.
vmbvmbvmb ®
Стаж: 12 лет 2 мес.
Сообщений: 18
Ratio: 24.971
Поблагодарили: 362
20.83%
Статья о создании с кодом скриптов: http://habrahabr.ru/post/274475/
Pacth
Стаж: 11 лет 10 мес.
Сообщений: 51
Ratio: 8.076
57.95%
Откуда: Ukraina
ukraine.gif
Как установить этот Словарь??? Где файл EXE? Скачал и нифига не понял что я скачал. Где описание по установке? Что с этим делать обьясните мне пожалуйста.

_________________
Love your life and life yours perents.
vmbvmbvmb ®
Стаж: 12 лет 2 мес.
Сообщений: 18
Ratio: 24.971
Поблагодарили: 362
20.83%
Pacth
Если вам нужен словарь не как документ/электронная книжка (в формате TXT, PDF, DJVU), а как программа, вам нужно сначала установить одну из оболочек — ABBYY Lingvo или GoldenDict — а потом подключить к ним словарь в форматах DSL или LSD.
Показать сообщения:   
Начать новую тему   Ответить на тему    Торрент-трекер NNM-Club -> Научная и техническая литература -> Иностранные языки (литература) Часовой пояс: GMT + 3
Страница 1 из 1